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本 书 通过 “配置 "、“ 分 析 ” 和 “建议 ”三 个 部 分 ， 先 介绍 了 关 
于 应 用 程序 服务 质量 、 云 模型 以 及 虚拟 化 架构 缺陷 的 基础 内 容 ， 然 后 
系统 地 分 析 了 应 用 程序 服务 由 于 云 架构 缺陷 受到 的 影响 ， 继 而 为 云 计 
算 应 用 以 及 尚 在 开发 过 程 中 的 应 用 提供 了 技术 和 策略 方面 的 建议 ， 最 
大 化 其 能 够 提供 优质 服务 的 能 力 ， 使 通过 云 计算 架构 交付 给 用 户 的 软 
件 应 用 和 服务 ， 具 有 与 在 传统 本 地 硬件 配置 上 运行 时 相同 级 别 的 服务 
质量 、 可 靠 性 和 可 用 性 。 

本 书 能 够 帮助 应 用 的 架构 师 、 开 发 人 员 和 测试 人 员 为 客户 和 终端 
用 户 开发 出 符合 期 望 ， 满 足 要 求 的 高 质量 应 用 。 适 合 从 事 云 计算 、 云 
应 用 设计 以 及 软件 工程 行业 的 人 士 阅读 ， 也 适合 作为 相关 专业 的 师 生 
的 参考 书 。 
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Eric Bauer 是 阿尔 卡特 -朗讯 的 全 平 台 CTO 的 可 靠 性 工程 经 理 ， 他 曾 在 阿尔 卡 
特 - 朗 讯 的 平台 、 应 用 以 及 解决 方案 的 可 靠 性 方面 工作 超过 十 年 。 在 从 事 可 靠 性 工 
程 领域 之 前 ，Bauer 花 了 二 十 年 时 间 设 计 和 开发 典 入 式 固件 、 网 络 操作 系统 、IP 
PBX、 互 联网 平台 以 及 光 传 输 系 统 。Bauer 获得 了 十 多 项 美国 专利 ， 撰 写 了 《Relia- 
bility and Availability of Cloud Computing ( 云 计算 实战 :可靠 性 与 可 用 性 设计 )》 
《Beyond Redundanoy: How Geographic Redundancy Can Improve Service Availability 
and Reliability of Computer-Based Systems (超越 元 余 : 地 理 宛 余 如 何 才 能 提高 计算 
机 系统 的 可 用 性 和 可 靠 性 )》《Design for Reliability: Information and Computer- Based 
Systems ( 可靠 性 设计 : 信息 和 计算 机 系统 )》《Practical System Reliability (系统 可 
靠 性 实用 技术 )》( 均 由 Wiley-IEEE 出 版 社 出 版 ) 等 著作 ， 并 有 多 篇 论文 在 《Bell 
Labs Technical Journal (贝尔 实验 室 技 术 期 刊 )》 发 表 。Bauer 拥有 康 奈 尔 大 学 电子 
工程 学 士 学 位 和 普 渡 大 学 电气 工程 项 士 学 位 ， 他 住 在 新 泽 西 州 弗 里 霍 尔 德 。 

Randee Adams 是 阿尔 卡特 -朗讯 的 人 平台 CTO 的 技术 顾问 ， 她 花 了 近 十 年 时 
间 专 注 于 产品 的 可 靠 性 设计 ， 曾 多 次 在 各 种 内 部 可 靠 性 论坛 上 发 言 。Adams 撰写 了 
«Beyond Redundanoy: How Geographic Redundancy Can Improve Service Availability 
and Reliability of Computer-Based Systems (# MILA: 地 理 宛 余 如 何 才 能 提高 计算 
机 系统 的 可 用 性 和 可 靠 性 )》 和 和 《Reliability and Availability of Cloud Computing (z= 
计算 实战 : 可 靠 性 和 可 用 性 设计 )》 等 著作 。 她 最 初 作 为 5ESS 交换 机 的 程序 员 ， 
于 1979 年 加 入 贝尔 实验 室 。Adams 在 整个 公司 的 多 个 项 目 (如 软件 开发 、 故 障 单 
管理 、 负 载 管 理 研究 、 软 件 交 付 、 系 统 工程 、 软 件 架 构 、 软 件 设计 、 开 发 工具 和 联 
合 风险 设置 ) 和 多 个 功能 领域 (如 数据 库 管 理 、 公 共 信 道 信 令 、 操 作 实 施 、 指 导 
和 管理 、 可 靠 性 和 安全 性 ) 工作 过 。Adams 拥有 亚利桑那 大 学 的 学 士 学 位 以 及 伊 
利 诺 伊 理工 学 院 的 计算 机 科学 硕士 学 位 ， 她 住 在 伊利 诺 伊 州 内 珀 维尔 。 
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本 书 的 作者 为 我 们 规划 了 部 署 在 云 上 的 应 用 程序 的 美好 愿景 ， 那 就 是 这 些 在 云 
架构 上 的 应 用 和 服务 ， 应 该 能 够 与 部 署 在 传统 、 本 地 的 硬件 上 一 样 ， 具 有 良好 的 服 
务 质 量 、 可 靠 性 和 可 用 性 。 云 计算 架构 在 具有 优势 的 同时 也 带 来 了 一 系列 在 虚拟 化 
计算 、 内 存 、 存 储 和 网 络 资源 损耗 方面 的 风险 和 缺陷 ， 应 用 程序 开发 人 员 和 运营 商 
应 当 尽 可 能 避免 云 计算 架构 的 缺陷 ,才能 保证 应 用 和 服务 交付 给 最 终 用 户 时 不 会 受 
到 很 大 影响 。 | 

本 书 介 绍 了 云 模型 和 基于 云 的 应 用 程序 服务 质量 ,分 析 了 可 能 影响 交付 给 最 终 
用 户 的 应 用 程序 服务 质量 的 虚拟 化 架构 缺陷 ,并 探讨 了 改进 云 服务 质量 的 各 种 可 
能 。 同 时 ， 本 书 还 推荐 了 一 些 关于 架构 、 策 略 和 相关 技术 方面 的 建议 ， 帮 助 读者 在 
云 计算 应 用 程序 开发 和 部 署 过程 中 ， 实 现 服务 质 量 方面 的 优化 。 

本 书 由 三 个 部 分 组 成 : 配置 、 分 析 与 建议 。 第 一 部 分 主要 是 一 些 概念 ， 介 绍 了 
什么 是 服务 质量 ， 什 么 是 云 模型 ， 什 么 是 虚拟 化 架构 的 缺陷 等 。 第 二 部 分 则 分 析 了 
虚拟 化 架构 的 缺陷 是 如 何 影响 应 用 程序 服务 质量 的 ; 分 析 涉 及 元 余 、 负 载 均 衡 、 版 
本 管理 、 容 量 管理 等 多 个 方面 。 第 三 部 分 则 是 作者 的 建议 ， 如 何 能 够 使 云 应 用 满足 
服务 质量 方面 的 需求 。 作 者 在 服务 质量 方面 的 从 业经 验 丰 富 ， 书 中 经 常 能 够 用 具体 
生动 的 例子 对 概念 进行 解释 ， 不仅 如 此 ， 书 中 还 提供 了 大 量 的 交叉 引用 ,方便 读者 
能 够 前 后 查找 一 些 概念 或 者 有 选择 性 的 对 本 书 进 行 阅读 。 

希望 读者 能 在 本 书 中 找到 对 自己 有 用 的 东西 ， 为 开发 和 部 署 一 个 高 服务 质量 的 
云 应 用 做 些 准备 。 本 书 由 谭 励 和 杨 明 华 合 译 ， 水平 有 限 ， 虽 然 不 是 第 一 次 翻译 外 文 
文献 ， 但 本 书 绝对 是 用 时 最 长 的 ， 特 别 是 在 处 理 和 核对 书 中 交叉 引用 的 内 容 上 ,为 
了 保证 前 后 文 的 一 致 性 ， 的 确 花费 了 大 量 的 时 间 。 尽 管 如 此 ， 书 中 仍 难免 有 各 种 翻 
译 不 当 的 地 方 ， 还 请 各 位 同仁 指正 。 
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Ble 概 述 


用 户 希 望 部 署 在 云 计算 架构 上 的 应 用 和 服务 能 够 与 部 署 在 传统 、 本 地 的 硬件 上 
一 样 ， 具 有 相似 的 服务 质量 、 可 靠 性 、 可 用 性 和 延迟 。 云 计算 架构 引入 了 一 系列 由 
于 虚拟 化 计算 、 内 存 、 存 储 和 由 “架构 即 服 务 (Infrastructrue-as-a-Service, IaaS)” 
供应 商 带 给 托管 的 应 用 程序 实例 等 网 络 资源 带 来 的 服务 缺陷 风险 ， 因此， 应 用 程序 
开发 人 员 和 云 消 费 者 应 当 尽 可 能 避免 这 些 缺 陷 ， 以 确保 应 用 程序 服务 交付 给 最 终 用 
户 时 不 会 受到 很 大 影响 。 本 书 分 析 了 可 能 影响 应 用 程序 服务 交付 给 最 终 用 户 的 云 架 
构 问 题 ， 以 及 改进 云 服 务 质量 的 各 种 可 能 。 同 时 ， 本 书 还 推荐 了 一 些 架构 、 策 略 和 
相关 技术 ， 能 够 使 得 部 署 在 云 上 的 应 用 程序 为 终端 用 户 提供 更 好 的 服务 。 


LD. AT 


基于 云 的 应 用 软件 在 一 系列 虚拟 机 实例 中 执行 ， 每 一 个 独立 的 虚拟 机 实例 依靠 
云 架构 所 提供 的 虚拟 计算 、 内 存 . 存储 和 网 络 来 进行 服务 交付 。 如 图 1.1 所 示 ， 应 
用 程序 通过 虚线 边界 向 终端 用 户 提供 “面向 用 户 的 服务 (customer facing 
service)”, “JaaS” 供 应 商 通过 图 中 的 虚线 边界 ， 即 “面向 资源 服务 (resource fa- 
cing service) ”提供 虚拟 化 资源 。 对 于 终端 用 户 而 言 ， 应 用 程序 的 服务 质量 可 以 看 
做 是 一 个 由 应 用 程序 架构 和 软件 质量 构成 的 函数 ， 而 由 laas 通过 面向 资源 服务 边 
界 提供 的 虚拟 架构 的 服务 质量 ， 以 及 将 终端 用 户 连接 至 应 用 程序 实例 的 接 人 服务 和 
广域网 服务 质量 也 是 如 此 。 本 书 考 虑 了 为 云 应 用 程序 所 提供 的 虚拟 化 资源 存在 的 各 
-种 缺陷 ， 并 讨论 如 何 将 终端 用 户 体验 的 用 户 服务 质量 最 优化 。 如 果 忽 略 终端 用 户 设 
备 的 服务 缺陷 ， 在 接 入 和 广域网 中 ， 用户 可 以 勉强 感受 到 应 用 程序 服务 质量 的 差 
异 ， 从 而 区 分 一 个 特定 的 应 用 程序 是 部 署 在 云 架 构 上 的 还 是 部 署 在 传统 的 硬件 设备 
上 的 。 

应 用 软件 部 署 在 本 地 或 云端 的 关键 技术 差异 在 于 ， 本 地 部 署 应 用 程序 的 用 户 操 
作 系 统 能 够 直接 访问 物理 计算 、 内 存 、 存 储 和 网 络 资源 ， 而 云端 部 署 则 在 用 户 操作 
系统 和 物理 硬件 之 间 插 人 了 一 个 管理 程序 层 或 者 虚拟 机 管理 软件 。 这 个 管理 程序 层 
或 虚拟 机 管理 软件 能 够 实现 复杂 的 资源 共享 ， 技 术 参数 和 操作 策略 。 然 而 ， 管 理 程 
序 层 或 虚拟 机 管理 软件 并 不 能 向 用 户 操作 系统 和 应 用 软件 提供 合适 的 硬件 仿真 ， 这 
使 得 提供 给 最 终 用 户 的 应 用 程序 服务 质量 会 受到 一 定 影响 。 如 图 1. 1 所 示 ， 应 用 程 
序 部 署 在 一 个 独立 的 数据 中 心 ， 而 现实 中 应 用 程序 往往 需要 部 署 在 多 个 数据 中 心 ， 
通过 缩短 消息 抵达 最 终 用 户 的 延迟 ， 支 持 连续 性 业务 和 灾难 恢复 以 及 其 他 商业 措 
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应 用 程序 的 面 象 用 户 服务 
(CFS) 边界 






应 用 程序 的 面向 资源 服务 
(RFS) 边界 





PP 


图 1.1 基于 云 的 应 用 示例 


施 ， 才 能 保证 用 户 的 服务 质量 。 本 书 也 会 涉及 部 署 在 多 个 数据 中 心 的 应 用 程序 服务 
质量 问题 。 

本 书 提供 了 当 应 用 程序 软件 部 署 在 云 架构 上 时 ， 为 保证 交付 给 最 终 用 户 好 的 应 
用 程序 服务 质量 所 应 采用 的 应 用 程序 架构 、 配 置 、 验 证 和 操作 策略 。 本 书 所 采用 的 
保障 应 用 程序 服务 质量 的 方法 ,来自 于 终端 用 户 视角 ， 同 时 还 参考 了 行业 标准 和 来 
A NIST, TM 论坛 、QuEST 论坛 、ODCA ISO, ITIL 等 联盟 的 推荐 。 


12 目标 读者 


本 书 为 应 用 程序 架构 师 、 开 发 人 员 和 测试 人 员 提 供 了 设计 和 工程 应 用 的 指导 ， 
能 够 满足 客户 和 最 终 用 户 在 服务 可 靠 性 、 可 用 性 、 质 量 和 延迟 方面 的 期 望 。 产 品 经 
理 、 开 发 经 理 和 项 目 经 理 也 将 从 本 书 中 获得 关于 服务 质量 风险 方面 的 深入 理解 ， 风 
险 必 须 尽 可 能 减 小 才能 确保 一 个 应 用 程序 部 署 到 云 架 构 时 ， 能 够 一 如 既往 地 满足 或 
超过 客户 在 用 户 服务 质量 方面 的 预期 。 


1. 3 本 书 组 织 结 构 


本 书 由 三 个 部 分 组 成 : 配置 、 分 析 与 建议 。 

第 工 部 分 : 配置 ,将 基于 云 的 应 用 程序 服务 质量 配置 做 出 划分 : 

。“ 应 用 程序 服务 质量 (第 2 章 )”。 本 章 定义 了 书 中 对 于 应 用 程序 服务 质量 
的 度量 标准 ， 包 括 : 服务 可 用 性 、 服 务 延 迟 、 服 务 可 靠 性 、 服 务 可 访问 性 、 
服务 可 维持 性 、 服 务 吞 吐 量 以 及 服务 时 间 枚 精度 。 
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。“ 云 模型 (第 3 章 )”。 本 章 从 技术 和 运 维 的 角度 ， 分 别 阐 述 了 部 署 在 云 名 
构 上 的 应 用 程序 与 传统 应 用 程序 的 不 同 ， 并 揭示 了 快速 弹性 服务 和 大 规模 
资源 池 可 能 带 来 的 新 机 遇 。 

e “虚拟 化 架构 缺陷 (第 4 章 )”。 本 章 曾 述 了 运行 在 云 染 构 虚 拟 机 上 的 应 用 

程序 必须 要 克服 的 架构 服务 缺陷 ， 从 而 能 够 确保 向 终端 用 户 提供 可 被 接受 
的 服务 质量 。 本 章 中 提 到 的 服务 质量 的 影响 因素 将 在 第 工 部 分 : 分 析 中 进 
一 步 加 以 阐述 。 

SIMBA: 分 析 ， 将 通过 以 下 的 内 容 ， 系 统 地 阐述 在 第 2 章 “ 应 用 程序 服务 
质量 ”中 定义 的 应 用 程序 服务 是 如 何 被 第 4 章 “ 虚 拟 化 架构 缺陷 ”中 列举 的 架构 
缺陷 影响 的 : 

e “应 用 程序 元 余 和 云 计 算 (第 5 章 )”。 本 章 回 顾 了 基本 的 元 余 体 系 结构 

(简单 结构 、 顺 序 见 余 、 并 发 元 余 以 及 混合 并 发 元 余 ) ， 并 阐述 了 在 面 对 虚 
拟 化 架构 缺陷 时 ， 这 些 元 余 在 减少 缺陷 所 带 来 的 影响 时 能 够 发 挥 的 作用 。 
e “负载 分 配 与 均衡 (第 6 章 )”。 本 章 系 统 的 分 析 了 应 用 程序 负载 分 配 与 均 

衡 问题 。 

e “故障 容器 (第 7 章 )”。 本 章 关 于 虚拟 化 和 云 如 何 帮 助 应 用 程序 实现 故障 
容器 策略 。 

“容量 管理 (第 8 章 )” 本 章 系 统 分 析 了 与 快速 弹性 和 在 线 容 量 增 长 和 逆 

增长 相关 的 应 用 程序 服务 风险 。 

“发 布 管理 (第 9 章 )”。 本 章 介 绍 了 虚拟 化 和 云 在 发 布 管理 方面 的 支持 。 

“ 端 到 端 考虑 因素 (第 10 章 )”。 本 章 曾 述 了 应 用 程序 服务 质量 缺陷 是 如 何 

通过 端 到 端的 服务 交付 路 径 不 断 累 积 的 。 本 章 同 时 站 述 了 服务 质量 影响 的 

不 同 。 部 署 应 用 程序 到 一 个 小 型 的 云 数 据 中 心 ， 服 务 质量 的 影响 更 接近 终 

端 用 户 ， 而 部 署 到 大 型 的 、 地 区 性 的 云 数 据 中 心 ， 服 务 质量 的 影响 则 离 终 

端 用 户 更 远 。 本 章 还 讨论 了 关于 灾难 恢复 和 地 理 位 置 元 余 问 题 。 

第 亚 部 分 : 建议 ， 包 含 了 以 下 内 容 : 

e。 “服务 质量 问 责 (第 11 章 )”。 本 章 介 绍 了 云 部 署 是 如 何 改变 服务 质量 传统 
的 职责 ， 提 供 了 通过 云 服 务 传输 链 实 现 这 些 职责 的 指导 。 本 章 同 时 通过 服 
务 差距 模型 回顾 了 如 何 规范 连接 、 架 构 、 实 现 、 验 证 、 部 署 以 及 监控 应 用 
程序 ， 从 而 确保 期 望 能 够 得 到 满足 。 与 此 同时 ， 本 章 还 介绍 了 服务 水 平 
协议 。 

e “服务 可 用 性 度量 (第 12 章 )”。 本 章 曾 述 了 传统 应 用 服务 的 可 用 性 度量 如 
tad 同时 能 够 保证 服务 可 用 性 。 

“应 用 程序 服务 质量 需求 (第 13 章 )”。 本 章 阐 述 部 署 在 云 上 的 应 用 程序 的 

ERSEN, 

e “虚拟 化 架构 度量 与 管理 (第 14 章 )”。 本 章 介 绍 了 在 生产 系统 中 虚拟 化 架 
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构 缺 陷 的 定量 测量 策略 ， 以 及 消除 导致 影响 架构 性 能 的 应 用 程序 服务 质量 
风险 的 策略 。 
。“ 基 于 云 的 应 用 程序 分 析 (第 15 章 )”。 本 章 给 出 了 一 系列 分 析 技 术 能 够 严 
格 地 评估 服务 质量 风险 和 迁移 目标 应 用 程序 体系 结构 的 损失 。 
。“ 测 试 注意 事项 (第 16 章 )”。 基 于 云 的 应 用 程序 测试 注意 事项 一 章 ， 除 了 
一 些 虚拟 化 架构 不 可 避免 的 缺陷 之 外 ， 阐 述 了 能 够 确保 服务 质量 满足 期 望 
的 问题 。 
。“ 关 键 点 连接 与 总 结 (第 17 章 )”。 本 章 讨论 了 如 何 应 用 第 五 部 分 的 内 容 ， 
使 得 现 有 的 和 新 的 应 用 程序 能 够 减少 第 工 部 分 : 基础 内 容 和 第 下 部 分 分 析 
所 提 到 并 分 析 的 服务 质量 风险 。 
许多 读者 可 能 会 希望 学 习 与 他 们 业务 相关 的 技术 或 者 感 兴趣 的 专业 相关 的 章 
节 ， 而 不 会 严格 地 按照 本 书 的 章节 来 阅读 ， 因 此 本 书 提供 了 很 多 交叉 引用 的 内 容 ， 
读者 可 以 直接 进入 第 开 部 分 分 析 ， 再 通过 交叉 引用 回 到 第 工 部 分 来 找 一 些 定 义 或 者 
到 第 亚 部 分 参考 一 些 推荐 的 内 容 。 本 书 提供 了 详细 的 索引 能 够 帮助 读者 快速 的 找到 
需要 的 内 容 。 
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本 书 关 于 配置 的 相关 内 容 如 图 2.0 所 示 : 基于 云 的 应 用 程序 依赖 虚拟 化 计 
算 、 内 存 、 存 储 和 网 络 资源 ， 通 过 接 入 和 广域网 向 终端 用 户 提 供 信 息 服务 。 应 
用 程序 的 质量 主要 关于 通过 应 用 程序 面向 用 户 服务 边界 (在 图 2.0 中 以 虚线 表 
T) 提供 的 用 户 服务 。 










第 2 章 应 用 程序 服务 质量 关注 应 用 
程序 的 面向 用 户 服务 | 


第 4 章 “虚拟 化 架构 缺陷 ”关注 应 用 
程序 的 面向 资源 服务 ` 


第 3 章 “ 云 模型 ”主要 内 容 是 关于 基础 
架构 即 服务 


架构 即 服务 


图 2.0 RIRI: 配置 组 织 结构 图 


e 第 2 章 “ 应 用 程序 服务 质量 ”主要 关注 通过 边界 传输 的 应 用 程序 服务 。 
应 用 程序 本 身 依赖 通过 云 服 务 提 供 的 虚拟 化 计算 、 内 存 、 存 储 以 及 网 络 
来 执行 应 用 软件 。 

© 第 3 章 “ 云 模型 ”介绍 了 支持 虚拟 化 架构 的 云 服 务 配 置 。 

e 第 4 章 “ 虚 拟 化 架构 缺陷 ” 则 关注 通过 应 用 程序 的 面向 资源 服务 边界 给 
应 用 程序 组 件 带 来 的 服务 缺陷 。 
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本 章 介绍 了 应 用 程序 向 终端 用 户 所 提供 的 服务 以 及 度量 这 些 服务 质量 的 方法 。 
在 本 章 中 ， 将 详细 介绍 其 中 一 部 分 最 常用 的 度量 应 用 程序 服务 质量 的 方法 。 而 一 些 
服务 的 关键 质量 指标 (Key Quality Indicator, KQI) 将 在 第 工 部 分 “分 析 ” 中 做 深 
人 介绍 。 


2.1 简单 应 用 程序 模型 


图 2. 1 所 示 为 一 个 简单 的 基于 云 的 应 用 程序 ， 前 端 组 件 通过 后 端 组 件 进 行 工 作 
的 分 配 。 这 些 前 端 和 后 端的 组 件 通过 控制 组 件 进行 管理 。 控 制 组 件 具 有 管理 可 见 
性 ， 能 够 对 所 有 应 用 程序 实例 进行 控制 。 每 一 个 应 用 程序 组 件 以 及 它们 所 支持 的 客 
户 操 作 系 统 都 在 云 服务 提供 商 提 供 的 不 同 虚拟 机 实例 上 执行 。 分 布 式 管理 任务 组 
( Distributed Management Task Force, DMTF) 对 虚拟 机 (Virtual Machine) 的 定义 
如 下 : 





图 2.1 一 个 简单 的 基于 云 的 应 用 程序 


能 够 支持 客户 软件 执行 的 完整 环境 。 虚 拟 机 是 一 个 虚拟 硬件 、 虚 拟 磁 盘 以 及 与 
之 相关 的 元 数据 的 完整 封闭 。 虚 拟 机 使 得 底层 的 物理 机 融 能 够 通过 一 个 软件 层 实 现 
多 路 复 用 ， 这 就 是 虚拟 机 管理 程序 [DSP0243 ] 。 


第 2 章 应 用 程序 服务 质量 7 


为 简单 起 见 ， 简 单 模型 忽略 了 直接 支持 应 用 程序 的 系统 ， 例 如 能 够 保护 应 用 程 
序 免 受 外 部 攻击 的 安全 装置 、 域 名 服务 器 等 。 
图 2. 2 所 示 为 一 个 简单 的 应 用 程序 组 件 ， 部 署 在 基于 云 架构 的 虚拟 机 上 。 这 个 
应 用 软件 以 及 其 下 层 的 操作 系统 一 一 是 指 客户 0S 一 一 运行 在 虚拟 机 的 实例 上 ， 实 
现 对 物理 服务 器 的 仿真 。 云 服务 提供 商 的 架构 为 应 用 程序 的 客户 操作 系统 实例 提供 
了 以 下 资源 服务 : 
I 






“程序 Gli) SUR 
ESRA 
. 其 他 


面向 其 他 组 件 和 系统 





图 2.2 ”一 个 简单 的 虚拟 机 服务 模型 


© 网 络 : 应 用 程序 软件 与 其 他 应 用 程序 组 件 、 应 用 程序 客户 端 和 其 他 系统 进 
行 联网 。 

。 计算 : 应 用 程序 最 终 将 在 一 个 物理 处 理 器 上 执行 。 

。( 非 永久 性 ) AF: 应 用 程序 可 以 执行 多 种 程序 的 内 存 ， 包 括 堆 内 存 、 栈 存 
储 、 共 享 内 存 以 及 使 用 主 存 维护 动态 数据 ， 例 如 应 用 程序 状态 信息 。 

© (KATE) 存储 : 应 用 程序 在 文件 或 文件 系统 中 存储 永久 性 的 数据 ， 包 括 程 
序 的 执行 参数 、 配 置 以 及 需要 永久 保存 的 应 用 程序 数据 。 


2.2 服务 边界 


对 于 服务 边界 进行 定义 是 十 分 有 意义 的 ， 可 以 帮助 我 们 区 别 用 户 程序 和 应 用 程 

序 所 提供 的 服务 ， 更 好 地 理解 在 用 户 服务 交付 的 过 程 中 ， 每 个 部 分 的 依赖 关系 、 交 

互 、 角 色 以 及 职责 。 接 下 来 我 们 将 关注 图 2.3 中 所 示 的 两 个 高 层 的 应 用 程序 服务 
边界 。 

© 应 用 程序 的 面向 用 户 服务 (Customer Facing Service , CFS) 边界 ,在 

图 2. 3 中 如 圆 点 线 所 示 。 该 边界 划分 了 应 用 程序 实例 面向 用 户 的 边 

寞 。 用 户 服务 可 靠 性 ,例如 呼叫 完成 率 ， 以 及 服务 延迟 ， 例 如 呼叫 建 
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应 用 程序 的 面向 资源 服务 
(RFS) 边界 





架构 即 服务 
图 2.3 应 用 程序 服务 边界 


立 ， 类 似 于 这 些 为 人 熟知 的 电信 行业 面向 客服 服务 的 服务 质量 度量 
标准 。 
e 应 用 程序 面向 资源 服务 (Resource Facing Service , RFS) 边界 ， 在 图 2.3 中 
以 虚线 表示 。 该 边界 区 分 了 执行 在 虚拟 机 上 的 应 用 程序 用 户 操作 系统 实例 
和 云 服 务 提供 商 提 供 的 虚拟 化 计算 、 内 存 、 存 储 和 网 络 。 在 永久 性 存储 
(例如 硬盘 驱动 器 ) 中 检索 数据 所 产生 的 延迟 就 是 我 们 非常 熟悉 的 面向 资源 
服务 的 服务 质量 度量 。 
需要 注意 的 是 ， 面 向 用 户 服务 和 面向 资源 服务 边界 在 服务 交付 链 中 是 相对 于 茶 
个 特定 的 实体 而 言 的 。 如 图 2. 3 所 示 ， 本 书 是 从 基于 云 的 应 用 程序 视角 来 解读 这 些 
概念 ， 而 同样 的 服务 边界 概念 ， 可 以 作为 云 架构 即 服务 的 一 个 组 成 部 分 或 者 被 当 作 
诸如 技术 组 件 即 服务 ， 例 如 数据 库 即 服务 的 一 部 分 。 


2.3 质量 和 性 能 的 关键 指标 


通过 服务 边界 传送 的 服务 质量 ,例如 服务 的 延迟 或 可 靠 性 ， 是 可 以 进行 量化 度 
量 的 。 这 些 服务 度量 的 技术 指标 通常 被 称 为 关键 性 能 指标 (Key Performance Indica- 
tor，KPI) 。 如 图 2. 4 所 示 ， 通 过 面向 用 户 服务 边界 包含 的 KPI 的 子 集 从 用 户 经 验 
和 感受 的 角度 刻画 了 服务 质量 的 关键 要 素 ， 这 些 要 素 统称 是 关键 质量 指标 (Key 
Quality Indicator, KQI) [TMF_TR197 ] 。 企 业 通常 会 把 跟踪 并 管理 这 些 KQI 当 作 是 
常规 工作 ， 以 确保 用 户 对 服务 质量 能 够 满意 。 一 个 运转 良好 的 企业 还 会 将 员工 的 奖 
金 与 KQI 的 定量 目标 实现 程度 挂钩， 激励 员工 为 客户 提供 最 好 的 服务 质量 从 而 能 
够 获得 更 多 的 经 济 效益 。 
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KPI 用 于 度量 
技术 要 素 





E. 
> „* 
“sane” 





KQI 是 KPI 的 子 集 ， 
用 于 度量 用 户 体验 
的 要 素 


图 2.4 KQI 和 KPI 


在 应 用 程序 中 ，KQI 包含 了 高 层 业 务 所 考虑 的 因素 ， 包 括 了 影响 用 户 满意 程度 
和 导致 客户 流失 的 服务 质量 ， 例 如 

e 服务 可 用 性 (第 2.5.1 节 ): 服务 对 于 用 户 而 言 是 在 线 可 用 的 ; 

e 服务 延迟 (82.5.27): 服务 是 否 能 够 快速 啊 应 用 户 的 需求 ; 

e 服务 可 靠 性 (第 2.5.3 节 ) : 服务 能 够 正确 地 响应 用 户 的 请 求 ; 

© 服务 可 访问 性 (58 2.5.4 47): 是 指 个 人 用 户 能 够 按 需 迅速 访问 服务 或 资源 

的 概率 ; 

。 服务 可 维持 性 (第 2.5.5 节 ): 是 指 一 个 服务 会 话 ， 例 如 电影 、 游 戏 或 者 电 
话 的 数据 流 ， 能 够 不 间断 地 保持 好 的 服务 质量 直到 其 正常 中 断 〈 例 如 ， 用 
户 要 求 其 中 断 ) 的 概率 ; 

。 服务 吞吐 量 (第 2.5.6 节 ): 根据 用 户 的 需要 提供 合适 的 服务 吞吐 量 ; 

© 服务 时 间 惟 精度 (第 2.5.7 节 ): 提供 满足 预计 或 符合 规定 的 时 间 精 度 
要 求 。 

具有 不 同业 务 模型 的 不 同 应 用 程序 所 定义 的 KPI 会 有 所 不 同 ， 也 会 在 一 定 范围 
的 应 用 程序 KPI 中 选择 不 同 的 KQI。 

一 个 基于 云 的 应 用 程序 主要 的 面向 资源 服务 的 风险 ， 取 决 于 由 云 服务 提供 的 虚 
拟 化 计算 、 内 存 、 存 储 和 网 络 传输 的 服务 质量 。 第 4 章 “ 虚 拟 化 架构 缺陷 ”将 包 
含 以 下 内 容 : 

© 虚拟 机 故障 〈 第 4.2 节 ) : 就 像 传 统 的 硬件 设备 一 样 ， 虚 拟 机 也 有 可 能 发 生 

故障 ; 

© 无 法 交付 的 虚拟 机 配置 容量 (984.347): 例如 ， 虚 拟 机 能 够 完成 简单 的 停 

止 操作 〈 或 是 停止 安装 ) ; 

。 交付 退化 的 虚拟 机 容量 (584.4 47): 例如 ， 某 个 虚拟 机 服务 器 有 可 能 产生 
了 拥塞 ， 则 一 些 应 用 程序 的 卫 数据 包 就 会 被 主机 操作 系统 或 管理 程序 
EF; 

e 尾部 延迟 (384.5 747): 例如 ， 一 些 应 用 程序 组 件 有 可 能 会 遇 到 长 时 间 资 源 
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访问 导致 的 延迟 ; 
。 时 钟 事 件 拌 动 (第 4.6 节 ): 例如 ， 常 规 的 时 钟 事件 中 断 (例如 每 lms) 发 
生 有 可 能 是 产生 了 延 时 ; 
。 时 钟 漂移 (第 4.7 节 ): 客户 操作 系统 实例 的 时 钟 有 可 能 与 标准 (UTC) 时 
间 产 生 漂 移 ; 
© 失败 或 缓慢 的 虚拟 机 实例 分 配 和 启动 (第 4.8 节 ) : 例如 新 分 配 的 云 资源 也 
许 不 可 用 ( 换 句 话说 是 到 达 时 已 死亡 [DOA] ) 。 
在 第 2. 1 节 的 简单 应 用 中 列举 了 常见 的 面向 用 户 服务 KQI 与 典型 的 面向 资源 
服务 KPI， 如 图 2.5 所 示 。 
应 用 程序 面向 用 户 服务 KQI 包 括 : 
1. 服 务 可 用 性 


2. 服 务 延迟 
3. 服 务 可 靠 性 














应 用 程序 面向 资源 服务 KPI 包 括 : 
1. VM 故障 点 

2. 时 钟 事件 拌 动 

3. 资源 访问 延迟 





图 2.5 应 用 程序 的 面向 用 户 和 资源 服务 指标 


如 图 2.6 所 示 ， 一 个 健壮 的 应 用 程序 体系 结构 ， 能 够 通过 应 用 程序 的 面向 用 户 
服务 边界 维护 好 的 服务 质量 ， 同 时 还 能 够 克服 通过 面向 资源 服务 边界 时 产生 的 缺陷 
以 及 应 用 程序 本 身 的 故障 。 

图 2.7 所 示 是 一 个 具体 的 健壮 性 的 例子 : 如 果 一 个 托管 了 应 用 程序 的 云 
架构 虚拟 机 出 现 了 故障 ， 其 中 应 用 程序 后 端 实例 需要 在 数 百 毫秒 〈 参 见 4. 3 
节 “ 无 法 交付 的 虚拟 机 配置 容量 ”) 进行 啊 应 ， 那 么 应 用 程序 的 面向 用 户 服 
务 会 受到 影响 么 ? 是 否 一 些 或 者 全 部 用 户 操作 需要 在 数 百 毫秒 时 间 内 完成 ? 
一 些 (或 者 全 部 ) 操作 会 由 于 超时 而 失败 ?” 一 个 健壮 的 应 用 程序 能 够 屏蔽 这 
些 面 回 用 户 服务 缺陷 的 影响 ， 使 得 终端 用 户 不 会 体验 到 难以 接受 的 服务 
质量 。 
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健壮 的 应 用 程序 能 够 最 小 化 面向 用 户 服 务 (如 可 用 性 、 可 靠 性 、 延 迟 ) 


eeeeee 





… 服 务 缺 陷 通 过 面向 资源 
服务 边界 影响 应 用 程序 ， 
给 应 用 程序 带 来 故障 


图 2.6 应 用 程序 健壮 性 






AAA 


Yi, 2 
Pa [| ile. 








… 那 么 在 面向 用 户 服 务 
质量 方面 会 如 何 ?例如 
服务 延迟 和 服务 可 靠 性 


<< 
图 2.7 应 用 程序 健壮 性 场景 示例 


2.4 关键 应 用 特征 


面 加 用户 服务 质量 根据 期 望 可 以 划分 为 以 下 几 个 部 分 : 
。 服务 急迫 性 〈 第 2.4.1 节 ); 

。 应 用 程序 交互 性 (第 2.4.2 节 ); 

© 网 络 传输 缺陷 的 耐 受 性 (第 2.4.3 节 )。 
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这 些 特 征 不 仅 影 响应 用 程序 服务 质量 的 指标 量化 (例如 关键 的 应 用 往往 具有 
较 高 的 服务 可 用 性 期 望 ) ， 也 影响 这 些 服务 质量 的 测量 指标 (例如 最 大 可 容忍 的 服 
务 死机 时 间 会 影响 最 低 断 电 故 障 停机 时 间 的 国 值 ) 。 


2.4.1 服务 急 据 性 


读者 会 认识 到 ， 对 于 用 户 和 企业 而 言 ， 不 同 的 信息 服务 需要 不 同等 级 的 服务 紧 
迫 程 度 。 尽 管 这 些 等 级 的 评定 会 因 用 户 的 期 望 和 企业 的 需要 而 具有 一 定 的 差异 ， 但 
美国 联邦 航空 管理 局 国家 空域 系统 的 可 药性 手册 对 等 级 做 了 严格 的 定义 ， BAe 
的 代表 性 : 

© 常规 的 (服务 可 用 性 等 级 99% ) :“ 失 去 这 种 能 力 会 对 安全 、 高 效 的 操作 产 

生 一 定 影响 ”|[ FAA- HDBK-006A |]; 
© 必须 的 (服务 可 用 性 等 级 99. 9% ) :“ 失 去 这 种 能 力 将 安全 、 高 效 的 操作 风 
险 大 大 提高 ”[ FAA- HDBK-006A ] ; 

© 严格 的 (服务 可 用 性 等 级 99. 999% ) :“ 失 去 这 种 能 力 将 使 得 安全 、 高 效 的 

操作 的 风险 达到 无 法 接受 的 程度 ”[ FAA- HDBK-006A ] ; 

还 有 一 个 名 为 “严格 的 安全 性 ”的 类 别 ， 服 务 可 用 性 等 级 为 7 个 9， 是 指 威胁 
生命 的 风险 和 服务 “在 缩减 容量 操作 过 程 中 的 损失 会 导致 不 可 接受 的 安全 风险 ” 
[FAA- HDBK-006A] 。 一 些 商业 企业 会 为 服务 或 应 用 程序 提供 “严格 的 安全 性 ”级 
别 ， 然 而 7 个 9 的 级 别 还 是 十 分 少 有 的 。 

服务 急迫 性 越 高 ， 企 业 在 架构 、 政 策 和 程序 方面 的 投入 就 会 越 多 ， 这 将 保证 提 
供给 用 户 的 服务 质量 是 持续 可 用 的 。 


2.4.2 应 用 程序 交互 性 
如 图 2. 8 所 示 ， 可 以 将 应 用 程序 服务 交互 性 大 致 分 为 三 个 方面 : 





] 10 100 1000 10000 100000 


ms ms ms ms ms ms 
事务 响应 
sa U 





图 2.8 交互 性 时 间 表 


o 批 处 理 或 非 交 互 类 型 。 那些 “离线 ”的 应 用 程序 大 多 是 这 种 类 型 ， 例 如 处 
理 薪资 单 、 离 线 账单 以 及 离线 分 析 。 这 类 应 用 程序 大 多 数 会 运行 几 分 钟 到 
几 个 小 时 。 对 于 用 户 而 言 ， 这 类 离线 应 用 程序 的 吞吐 量 总 和 《例如 完成 整 
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个 批 处 理 任 务 所 需要 的 全 部 时 间 ) 往往 要 比 完成 单个 事务 所 需要 的 时 间 更 
有 意义 。 一 个 批 处 理 任务 可 能 包含 成 百 上 千 ， 甚 至 更 多 独立 的 事务 ， 每 个 
事务 可 能 执行 成 功 ， 也 可 能 失败 。 对 失败 的 事务 进行 手动 处 理会 导致 用 户 
的 运营 成 本 增加 。 对 于 批 处 理 操 作 而 言 ， 交 互 性 的 要 求 会 比较 低 ， 而 服务 
可 靠 性 (例如 ,事务 具有 低 错 检 认 可 以 减少 重 做 ， 降 低 成 本 ) 的 要 求 则 通 
常 比较 高 。 
。 正常 交互 类 型 。 具 有 正常 交互 性 需求 的 在 线 应 用 程序 往往 是 这 种 类 型 ， 
例如 常规 的 网 络 流量 (例如 电子 商务 ) 和 通信 信号 发 射 。 这 类 应 用 程序 
的 交互 性 受 应 用 程序 类 型 、 服 务 提供 商 以 及 其 他 的 一 些 因 素 的 影响 ， 而 
具有 较 大 的 差异 。 例 如 ， 大 多 数 用 户 拨 电话 后 等 待 接听 的 时 间 不 会 超过 
几 秒 钟 ， 看 电视 换 台 时 等 待 IPTV 视频 出 现 的 时 间 也 不 会 超过 几 秒 钟 ， 然 
而 ， dd de 用 程序 上 ， 例 如 完成 一 个 电 商 的 购 
物 ， 则 可 能 会 长 一 些 。 交 互 性 事务 的 响应 时 间 通 常 以 几 百 毫秒 或 者 数 干 
毫秒 计算 。 
实时 交互 类 型 。 具 有 严格 的 响应 时 间或 服务 延迟 要 求 的 应 用 程序 属于 这 种 
交互 性 极 强 的 类 型 。 交 互 式 多 媒体 内 容 (例如 音频 或 视频 会 议 )、 游 戏 
(例如 第 一 人 称 射 击 游戏 ) 以 及 数据 或 承载 面 的 应 用 程序 (例如 防火 墙 、 
网 关 ) 等 ， 都 具有 非常 严格 的 实时 服务 要 求 。 对 于 实时 应 用 程序 事务 的 响 
应 时 间 通 常 是 以 毫秒 或 几 十 毫秒 计算 的 。 


2.4.3 网络 传 输 缺 陷 的 耐 受 性 


数据 网 络 受 到 以 下 三 类 网 络 服务 缺陷 的 影响 : 

o EU: 由 于 发 送 方 和 接收 方 之 间 网 络 拥塞 、 传 输 失 败 或 其 他 原因 ， 数 据 包 
可 能 会 被 中 间 系 统 丢弃 。 

ik: 电气 和 光学 信号 的 传播 速度 有 限 ， 当 信号 通过 中 间 系 统 ， 例 如 路 
由 髓 和 交换 机 ， 会 花费 一 定 的 时 间 。 因 此 ， 在 一 方 传输 数据 包 的 时 候 或 是 
在 另 一 方 接收 数据 包 的 时 候 ， 总 会 产生 一 定 的 延迟 。 

Fal: 一 个 数据 流 内 数据 包 与 数据 包 之 间 的 包 延 迟 差异 被 称 为 拌 动 。 同 
步 数据 流 抖动 的 问题 尤其 严重 ,例如 音频 或 视频 会 话 ， 接 收 设备 必须 不 断 
地 为 终端 用 户 呈 现 流 媒体 数据 。 如 果 一 个 数据 包 没 有 在 规定 的 时 间 内 顺利 
抵达 呈现 给 最 终 用 户 ， 则 最 终 用 户 的 设备 就 需要 一 些 丢 包 的 补偿 机 制 ， 有 
可 能 会 在 服务 的 呈现 上 做 一 些 降 低 精 度 的 妥协 ， 这 可 能 会 影响 终端 用 户 的 
服务 质量 体验 。 

[ RFC4594] 描述 了 篆 见 应 用 程序 类 型 对 于 丢 包 、 延 迟 和 持 动 的 耐 受 性 。 
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2.5 应 用 程序 服务 质量 指标 


尽管 不 同 的 应 用 程序 向 终端 用 户 提 供 不 同 的 功能 ， 但 通过 应 用 程序 面向 用 
户 服务 边界 癌 终 端 用 户 提供 的 应 用 程序 的 主要 服务 KQI 包含 以 下 一 个 或 者 多 个 
指标 : 

© 服务 可 用 性 〈 第 2.5.1 节 ); 
服务 延迟 《〈 第 2.5.2 节 ); 
服务 可 靠 性 〈 第 2.5.3 节 ); 
服务 可 访问 性 〈 第 2.5.4 节 ); 
服务 可 维持 性 (第 2.5.5 47) ; 
服务 吞吐 量 .( 第 2.5.6 节 ); 
服务 时 间 惟 精度 C5 2.5.7 FF) ; 

。 特定 应 用 程序 的 服务 质量 度量 (第 2.5.8 市 )。 

注意 ， 对 于 用 户 而 言 ， 服 务 质 量 的 一 致 性 也 十 分 重要 。 服 务 质 量 性 能 的 度量 在 
任何 时 候 ， 应 该 是 一 致 的 和 可 重复 的 。 信息 和 通信 服务 的 致 性 对 于 用 户 而 言 就 像 
其 他 产品 AA 的 品 AA 牌 一 样 重要 。 


2.5.1 服务 可 用 性 


可 用 性 的 定义 如 下 ,“IT 服务 或 其 他 配置 项 在 需要 的 时 候 执 行 其 约定 功能 的 能 
力 ”[ ITIL- Availability ] 。 数 学 上 ， 可 用 性 可 以 由 式 (2.1) 描述 ， 可 用 性 的 公式 
如 下 : 


约定 服务 时 间 - 机 时 站 

Te = Ea ed 
约定 服务 时 间 是 系统 认可 的 测量 窗口 时 间 。 所 谓 的 24 x7 x 不 间断 系统 
(也 被 称 为 “24 x7 x365”) ， 约 定 服 务 时 间 是 每 天 每 时 每 刻 ， 如 果 系 统 允 许 计 
划 停 机 ， 则 计划 和 安排 停机 时 间 应 在 约定 服务 时 间 之 外 。 故 障 停机 时 间 ( Out- 
age Downtime) 被 定义 为 : “服务 不 可 用 的 一 定数 量 的 系统 、 网 络 元 素 或 服务 
piggies E 
Al,” [TL_9000]。 注 意 ， 现 代 应 用 程序 通常 同时 为 不 同 的 用 户 提供 不 同 的 功 
能 ， 因 此 ， 部 分 功能 发 生 中 断 故 障 往往 比 整体 发 生 故 障 更 为 常见 ; 部 分 功能 故 

障 通 常 也 仅 会 使 系统 的 一 部 分 功能 受到 影响 。 
服务 可 用 性 度量 和 目标 通常 反映 了 受 影响 的 应 用 程序 的 服务 急迫 程度 (参见 
第 2. 4. 1 节 “ 服 务 急迫 性 ”) 。 例 如 ， 对 于 laas 供应 商 的 应 用 程序 而 言 ， 所 使 用 的 
可 用 性 相关 的 定义 从 字面 上 会 有 “必要 ”和 “常规 ”紧迫 性 两 种 。 针 对 最 小 可 充 
电 故 障 时 间 至 少 Smin 这 种 情况 : “不 可 用 ”意味 着 所 有 运行 实例 在 Smin 的 时 间 内 
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都 没有 外 部 连接 并 且 不 能 够 运行 其 他 替换 的 实例 了 。 关 键 服务 通常 会 有 很 多 严格 的 
服务 度量 和 性 能 目标 。 例 如 ， 电 信行 业 的 质量 标准 TL 9000 使 用 以 下 故障 定义 : 
“导致 主要 功能 完成 失效 的 全 部 故障 中 断 都 必须 计算 在 内 …… 只 要 全 部 或 部 分 的 系 
统 的 操作 窗口 时 间 大 于 15s， 无 论 中 断 故 障 是 临时 或 计划 发 生 的 。 [TL_ 9000]. 
显然 ， 最 低 断 电 中 断 持 续 时 间 15s 远 比 最 低 断 电 中 断 持 续 时 间 Smin 要 严格 得 多 。 
除了 严格 的 服务 性 能 目标 ， 关 键 服务 通常 会 包括 更 多 精确 的 度量 ， 例 如 ， 按 比例 分 
配 部 分 容量 或 功能 缺陷 ， 而 不 是 测量 全 部 〈 例 如 ,“ 在 Smin 时 间 内 没有 可 用 连 
接 ” )。 死 机 事件 往往 是 罕见 的 急性 事件 ， 几 周 、 几 个 月 、 或 几 年 的 正常 运转 被 一 
个 持续 几 十 分 钟 甚至 几 小 时 事件 中 断 。 因 此 ， 可 用 性 或 故障 停机 时 间 通 常 是 在 平均 
6 个 月 的 时 间 设 置 中 断 事件 ， 重 新 对 环境 进行 配置 。 

对 于 服务 可 用 性 度量 的 需求 将 在 第 13. 1 节 “ 服 务 可 用 性 需求 ”中 进一步 详细 阐述 。 


2.5.2 服务 延迟 


如 图 2.9 所 示 ， 服 务 延 迟 是 指 服务 请 求 与 响应 之 间 经 过 的 时 间 。 大 多 数 基 于 网 络 的 
服务 都 会 按照 客户 端 用 户 发 出 的 请 求 运行 事务 : web 应 用 程序 响应 HTTP GET 的 请 求 返 
回 各 种 网 页 ( 当 遇 到 HTTP PUT 请 求 时 更 新 网 页 ) ; 通信 网 络 接 到 用 户 的 请 求 后 建立 呼 
叫 ; 游戏 服务 器 响应 用 户 的 输入 ; 多 媒体 服务 器 按照 用 户 的 要 求 播 放流 媒体 视频 等 。 


除了 具体 的 服务 延迟 度量 ， 例 如 载 人 网 页 需 客户 端 “A” 服务 器 “B1” 


要 的 时 间 ， 一 些 应 用 程序 对 于 更 高 级 别 的 操作 有 | AR 

着 服务 延迟 方面 的 需求 ， 这 些 更 高 级 别 的 操作 包 A 

含 了 许多 具体 的 事务 ， 例 如 激活 一 个 新 的 智能 手 

机 需要 多 少 秒 或 者 多 少 分 钟 ， 给 一 个 新 的 用 户 提 AS 

供应 用 程序 服务 需要 花 多 长 时 间 。 好 的 解决 方案 O 

能 够 将 高 级 别 的 应 用 程序 延迟 需求 降低 到 较 低 级 f iaaiiai i 
E 





别 ， 从 而 有 效 地 确保 整体 的 服务 延迟 管理 有 序 。 

服务 延迟 方面 的 度量 需求 将 在 第 13.2 节 “ 服 
务 延迟 需求 ”中 进一步 讨论 。 图 2.9 服务 延迟 
2.5.2.1 延迟 变化 的 传统 原因 

延迟 发 生 在 客户 端 发 送 请 求 和 接收 到 响应 的 两 个 时 间 之 间 ， 一 些 难 以 避免 的 原 
因 导 致 了 延迟 发 生 ， 包 括 : 

。 请 求 队列 : 当 资 源 繁忙 的 时 候 请 求 正 好 到 来 ， 这 时 候 不 是 立即 拒绝 请 求 ， 

而 是 将 这 些 请 求 放 人 一 个 队列 依次 响应 ， 队 列 使 得 请 求 得 到 响应 的 概率 增 


© “Amazon EC2 服务 级 别 协 议 ”， 生 效 时 间 : 2008 年 10 月 23 A. http: //aws. amazon. com/ec2-sla/ ij 
问 时 间 : 2012 年 12 月 14 日 。 
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加 ， 但 同时 也 会 使 得 服务 的 延 玉 增 大 。 如 果 系 统 设计 合理 ， 则 请 求 队列 满 
足 服务 能 够 提供 的 负载 ， 而 不 需要 服务 为 系统 在 最 繁忙 的 时 候 ( 例 如， 最 
ZA ea i) 增加 系统 的 硬件 投入 。 本 质 上 ， 请 求 队列 带 来 了 偶尔 
增加 的 服务 延迟 ， 但 却 避 免 了 系统 硬件 方面 更 多 的 投入 。 

缓存 : 来 自 缓 存 的 啊 应 要 远 比 来 自 读 硬盘 或 网 络 事务 的 响应 要 快 得 多 。 
磁盘 结构 : 随机 存 取 内 存 (RAM) 中 ,访问 内 存 不 同位 置 需要 的 时 间 是 一 
样 的 ， 而 磁盘 存储 则 不 同 ， 数 据 访问 需要 不 同 的 访问 时 间 ， 因 为 磁头 需要 
移动 到 磁盘 的 相应 位 置 才能 够 进行 数据 的 存储 。 磁 头 的 移动 有 两 种 不 同 的 
方 问 ; 

o 按照 磁盘 存储 的 方式 旋转 。 

© Track-to-track 方式 ， 磁 头 在 数据 存储 的 同心 环 或 磁 轨 间 移 动 。 


当 访问 顺序 数据 时 ,， 利 用 文件 系统 和 数据 库 的 物理 布局 往往 能 够 减少 旋转 或 按 
磁 轨 访问 数据 所 吾 来 的 延迟 ， 但 由 于 数据 在 磁盘 上 的 物理 布局 ， 一 些 数据 操作 将 不 
可 避免 地 需要 更 多 的 时 间 。 


磁盘 碎片 : 磁盘 碎片 导致 数据 在 磁盘 中 不 能 连续 存储 。 在 对 非 连续 的 磁盘 
块 进行 读 写 时 ,需要 在 查找 合适 读 写 的 磁盘 空间 上 耗费 时 间 ， 当 处 理 碎片 
空间 或 文件 时 ， 会 产生 一 些 额 外 的 延迟 。 

请 求 到 达 率 的 差异 : 服务 请 求 的 到 达 率 会 不 可 避免 的 有 一 些 随机 变化 ， 这 
些 变化 是 礁 加 在 每 天 、 每 周 这 样 周期 性 的 使 用 模式 之 上 的 。 当 负载 增 大 ， 
则 请 求 队列 会 变 长 ， 而 队列 延迟 便 会 增 大 。 

垃圾 回收 : 一 些 软件 技术 要 求 能 够 周期 性 地 进行 垃圾 回收 以 释放 那些 不 再 
使 用 的 资源 。 当 启动 垃圾 回收 机 制 时 ， 一 些 资源 可 能 就 不 能 响应 应 用 程序 
用 户 请 求 。 

网 络 拥塞 或 延迟 : 突 发 的 网 络 活动 或 峰值 的 出 现 可 能 会 导致 PP 数据 包 在 网 
络 传输 中 的 延迟 增加 。 

不 可 预期 的 使 用 和 传输 模式 : 数据 库 和 软件 体系 结构 都 是 为 某 种 使 用 场景 或 
传输 模式 进行 了 配置 和 优化 。 而 当 使 用 场景 和 传输 模式 发 生 了 与 预期 差异 很 
大 的 变化 时 ， 之 前 的 配置 就 不 再 是 优化 的 配置 了 ， 这 有 可 能 导致 性 能 的 下 降 。 
丢 包 或 包 损 坏 : 当 PP 数据 包 在 客户 端 与 应 用 程序 实例 间 传 输 时 ， 有 可 能 发 
生 丢失 或 者 损坏 ， 丢 失 或 损坏 的 情况 也 有 可 能 发 生 在 解决 方案 中 任何 组 件 
之 间 。 检 测 丢 包 并 重 传 需要 花费 一 定 的 时 间 ， 这 有 可 能 导致 延迟 的 产生 。 
资源 配置 : 本 地 的 资源 往往 比 附近 数据 中 心 的 资源 性 能 更 优 ， 同 样 ， 在 附 
近 数 据 中 心 的 资源 比 在 远 端 数据 中 心 的 资源 访问 延迟 要 低 。 

网 络 带 宽 : 几乎 所 有 的 网 络 用 户 都 知道 ， 网 络 连 接 带 宽 较 低 则 网 页 的 加 载 
速度 会 很 慢 。DSL 比 拨号 上 网 快 ， 而 人 户 光 纤 又 比 DSL 要 更 快 。 同 理 ， 云 
端的 资源 如 果 不 具备 足够 的 网 络 带宽 ,就 会 像 用 户 上 网 带宽 不 足 一 样 ， 导 
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致 服务 延迟 的 增加 。 

应 用 程序 的 体系 结构 能 够 帮助 应 用 程序 克服 这 些 延 迟 导致 的 不 足 。 例 如 ， 具 有 
关键 功能 的 应 用 程序 ， 往 往 包 含 多 个 网 络 事务 或 磁盘 操作 ， 它 们 比 那 些 缺少 关键 操 
作 的 应 用 程序 更 容易 受到 延迟 影响 。 
2.5.2.2 ”服务 延迟 描述 

图 2. 10 给 出 了 一 个 具有 30000 个 事务 的 应 用 程序 服务 延迟 分 布 的 例子 。 平 均 
(50%) 服务 延迟 时 间 是 130ms， 响 应 时 间 的 范围 较 大 ; 在 这 个 数据 集中 ， 最 慢 的 
响应 (1430ms) 比 50% 平 均 延 迟 要 耗 时 10 售 。 从 这 个 累计 分 布 中 可 以 看 到 ， 延 迟 
的 “尾部 ”包含 了 一 些 异 常 值 (有 时 也 被 称 作 是 “变形 ”) ， 它 们 比 大 多 数 的 值 要 
慢 得 多 。 尽 管 这 些 尾 部 数据 显然 也 比 一 些 典 型 延迟 (例如 50% 的 平均 值 或 是 90% 
的 值 ) 要 慢 得 多 ， 但 对 于 系统 地 研究 延迟 来 说 ， 数 以 百 万 事务 的 延迟 统计 ， 比 图 
2. 10 中 这 个 数据 集中 仅 有 几 千 个 样本 的 例子 要 更 有 说 服 力 。 


eet? oe 


100 0 

f E 
75 

E T 
50 


23 o 按 百 分 比 的 中 值 : 130ms 


0 200 400 600 800 1000 1200 1400 1600 
服务 延迟 /ms 


图 2. 10 一 个 服务 延迟 分 布 的 小 例子 


分 别 记 录 每 个 事务 的 服务 延迟 ， 然 后 直接 分 析 数 百 万 ， 数 千 万 或 更 多 的 数据 通 
常 是 不 可 行 的。 因此 ， 一 般 关 于 服务 延迟 的 度量 都 是 按时 间 段 进行 的 。( 例如 30m 
以 下 ，30 ~49ms，50 ~69ms) 。 图 2. 11 所 示 是 一 个 运行 在 虚拟 化 架构 上 基于 实时 会 
话 发 起 协议 (Session Initiation Protocol, SIP) 的 应 用 程序 服务 延迟 示意 图 。 图 中 服 
务 延 迟 基 于 三 种 不 同 的 负载 密度 一 一 “X”,，1.4 们 “XX” 以 及 1.7 信 “X”,， 可 以 
很 清楚 地 看 到 一 些 典 型 的 延迟 (例如 50% 和 90% 的 值 ) 是 较为 稳定 的 ， 而 那些 较 
好 情况 的 延迟 (例如 ， 最 快 的 25% ) 则 会 随 着 负载 密度 增加 而 有 所 下 降 。 

图 2.11 中 ， 线 性 累积 分 布 函数 (CDF) 掩盖 了 延迟 尾部 的 “100%” 的 线 ， 
而 对 数 互补 累积 分 布 函 数 (CCDF) 则 可 以 更 好 地 将 延迟 的 尾部 用 可 视 化 效果 展示 
出 来 。 注 意 ， 虽 然 y 轴 上 数值 范围 还 是 使 用 线性 分 布 ，y 轴 上 的 CCDF 使 用 对 数 刻 
度 ， 更 好 地 可 视 化 极端 的 尾部 值 。 图 2. 12 给 出 了 与 图 2. 11 所 示 同 一 个 数据 集 的 数 
据 应 用 程序 的 延迟 CCDF， 可 以 看 到 在 50000 操作 中 最 慢 的 尾部 情况 是 完全 不 同 
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典型 的 工作 负载 下 应 用 程序 服务 延迟 


— A e 
% mX 

—~s— 负载 1.47 
—a— Hf 1.7X 






0 25 50 75 100 125 150 
服务 延迟 /ms 


图 2.11 工作 负载 密度 下 典型 延迟 变化 示例 


的 ，100000 个 操作 的 最 慢 尾 部 情况 在 1.7 5 “XX 负载 密度 下 要 比 1. 4 倍 负载 密度 
下 高 许多 。 因 此 ， 如 果 只 考虑 典型 的 服务 质量 标准 (如 50% 和 90% 的 ) 服务 延 
R, BAT 倍 “X” 的 工作 负载 密度 或 甚至 更 高 都 是 可 以 接受 的 。 然 而 ， 如 果 
QoS 标准 考虑 尾部 (如 ， 第 99.999 的 值 或 CCDF 下 10°) 的 服务 延迟 ， 那么 1.4 
倍 工作 负载 则 是 可 接受 的 上 限 了 。 

EER CAAA RS SS eee 


互补 累积 分 布 函 数 (CCDF) 
(对 数 标尺 ) 


实际 测量 
来 分 析 结 果 。 








服务 延迟 /ms 
图 2.12 工作 负载 密度 下 尾部 延迟 变化 示例 


的 延迟 数据 往往 在 CCDF 下 呈现 得 更 为 混乱 ， 可 以 从 数据 的 统计 分 布 
图 2. 13 所 示 是 在 CCDF 下 三 种 类 型 的 统计 分 析 结 果 分 布 : 


© HÉ (HAWES) 分 布 : 该 分 布 在 半 对 数 CCDF 坐标 下 下 降 得 十 分 快 。 


例如 ? 


在 10° 情况 下 最 慢 只 比 十 个 操作 的 情况 下 慢 3 倍 。 


o 指数 分 布 : 指数 分 布 在 半 对 数 CCDF 坐标 下 是 一 根 直线 ， 在 10 情况 下 最 慢 
比 十 个 操作 的 情况 下 慢 5 倍 。 
。 凹面 分 布 〈 例 如 寡 律 分 布 ) : 该 分 布 比 指数 分 布下 降 得 慢 ， 在 10 情况 下 最 


第 2 章 应 用 程序 服务 质量 19 


慢 比 十 个 操作 的 情况 下 大 约会 慢 10 倍 左右 。 


互补 累积 分 布 函 数 


半 对 数 坐 标 下 
EES ASL, 
iN SO Fe FE aD A 


(对 数 标尺 ) 


半 对 数 坐 标 下 
的 线性 函数 ， 
如 指数 分 布 





图 2.13 理解 互补 累计 分 布 图 


从 图 2. 12 可 见 ， 实 际 的 分 布 可 能 会 是 多 种 理论 分 布 的 混合 ， 例 如 ， 在 最 慢 的 
10° 操作 情况 下 符合 标准 分 布 ， 而 在 尾部 变 为 究 律 分 布 (也 许 在 50000 时 发 生 


变化 )。 


2.5.2.3 服务 延迟 优化 
关于 服务 延迟 有 两 类 特征 ， 可 以 尝试 从 这 两 个 方面 对 延迟 进行 优化 〈( 见 


图 2. 14)。 
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型 ”延迟 进行 优 延迟 实现 优化 
化 (例如 在 中 值 
处 进行 优化 ) 






F: p re 
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(例如 在 99.9%、 
99.99% 以 及 
99.999% 处 进 
行 优 化 ) 
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图 2.14 服务 延迟 优化 选项 


。 最 小 化 “典型 ”延迟 ， 将 典型 延迟 或 者 是 50% 值 的 延迟 降低 为 毫秒 〈 或 微 
秒 ) 能 够 提高 平均 性 能 。 
。 最 小 化 “尾部 ”延迟 ， 较 少 操作 数量 带 来 的 延迟 要 远大 于 典型 延迟 ， 因 此 
可 以 通过 减少 “尾部 ”延迟 从 而 减少 分 布 方差 .消除 变形 。 
导致 典型 和 尾部 延迟 的 根本 原因 各 不 相同 ， 但 应 该 找到 能 够 导致 延迟 的 根本 原 
因 以 便于 进行 优化 ， 并 可 以 在 部 署 的 时 候 进行 识别 或 采用 正确 的 方式 避免 延迟 
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Pi 
2.5.3 服务 可 靠 性 


可 靠 性 是 在 [TL_ 9000] 中 定义 为 “在 规定 条 件 下 规定 时 间 内 具有 完成 所 有 
要 求 的 能 力 ”。 服 务 可 靠 性 是 一 个 可 以 在 最 大 可 接受 时 间 内 正确 处 理 服务 请 求 的 程 
序 。 服 务 可 靠 性 的 损伤 有 时 被 称 为 缺陷 、 失 败 或 者 故障 操作 。 虽 然 服务 可 靠 性 可 以 
作为 衡量 成 功 的 概率 (例如 99. 999% 的 成 功 概率 ) ， 但 概率 表示 是 很 多 人 不 容易 理 
解 而 且 在 数学 上 是 难以 计算 的 。 相 反 ， 成 熟 的 客户 和 供应 商 通常 通过 百 万 分 之 一 失 
We 〈 或 故障 ) 的 尝试 操作 (DPM) 衡量 服务 可 靠 性 。 例 如 ，7 个 1% 的 失败 尝试 操 
作 比 99. 9993% 的 服务 可 靠 性 更 容易 让 人 掌握 。 此 外 ，DPM 通常 可 以 表示 为 沿 关键 
服务 交付 路 径 求 DPM 值 的 总 和 。 该 度量 需求 将 在 第 13.3 节 “ 服 务 可 靠 性 需求 ”中 


讨论 。 
2.5.4 服务 可 访问 性 


应 用 服务 可 访问 性 是 用 户 成 功 建立 一 个 新 的 应 用 程序 服务 的 会 话 或 连接 的 可 能 
性 ， 诸 如 ， 开 始 流 视 频 内 容 或 开始 音频 呼叫 或 启动 交互 式 游戏 。 应 用 程序 通常 有 特 
定 的 服务 可 访问 性 指标 ， 如 电话 服务 可 访问 性 故障 ， 有 时 也 被 称 为 “呼叫 失败 的 
ZA.” 服务 可 达 性 有 时 会 作为 服务 可 用 性 的 替换 ， 如 “可 用 ”和 “可 用 的 ”表示 
消费 者 能 够 登录 到 应 用 程序 ”。 请 注意 ， 可 访问 性 不 考虑 为 有 功能 缺陷 的 用 户 提供 
可 能 需要 修改 服务 的 输入 、 补 偿 输出 或 操作 。 服 务 可 访问 性 的 度量 需求 在 第 13. 4 
入 “服务 可 访问 性 需求 ”中 进行 讨论 。 


2.5.5 服务 可 维持 性 


面向 会 话 对 用 户 来 说 是 很 重要 的 服务 ， 如 流 媒体 视频 ， 其 会 话 要 持续 不 间断 ， 
保持 正常 可 接受 的 服务 质量 ， 直 到 会 话 结束 〈 如 流 媒体 视频 完成 ) 。 服 务 可 维持 性 
的 概念 是 现 有 服务 会 话 保 持 运行 ， 直 到 最 终 用 户 请 求 会 话 终止 。 应 用 程序 通常 具有 
特定 的 应 用 程序 服务 可 维持 性 指标 ， 如 “ 断 线 ”或 “过 早 释 放 ” 会 影响 电话 服务 
的 可 维持 性 。 服 务 会 话 的 时 间 越 长 ， 服 务 保留 的 风险 就 越 高 ， 服 务 可 维持 性 往往 用 
范 化 的 时 间 来 描述 ( 例如， 服务 会 话 期 间 每 分 钟 的 风险 ) 或 采用 隐 式 表示 (例如 
90min 的 电影 或 10min 在 线 游戏 或 3min 电话 可 能 存在 的 风险 ) 。 例 如 ， 一 个 30min 
的 视频 通话 过 程 中 断 开 服 务 的 风险 ， 要 比 一 个 3min 的 视频 电话 断 开 服务 的 风险 要 
高 10 倍 。 因 此 ， 服 务 可 维持 性 是 一 个 概率 ， 无 法 接受 的 服务 影响 事件 会 导致 单个 
用 户 在 规范 化 服务 会 话 窗口 (如 每 用 户 会 话 分 钟 ) 激活 服务 会 话 。 本 书 将 在 第 
13.5 节 讨 论 “ 服 务 可 维持 性 需求 ”的 度量 。 
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2.5.6 服务 吞吐 量 


服务 吞吐 量 是 持续 成 功 处 理事 务 的 比例 ， 如 每 小 时 处 理 的 事务 数 。 服 务 否 吐 量 
通常 被 认为 是 服务 能 力 指 标 。 一 个 未 能 满足 服务 否 吐 量 的 预期 , 而 (名义 上 ) E 
确 的 配置 ， 往 往 被 视 为 具有 服务 质量 问题 。 服 务 可 靠 性 与 服务 吞吐 量 是 耦合 的 ， 因 
为 客户 最 关心 的 是 成 功 处 理 的 操作 一 一 有 时 候 被 称 为 “goodput” 一 一 不 是 去 计算 
那些 不 成 功 或 失败 操作 。 例 如 ， 应 用 程序 在 过 载 时 ， 能 够 成 功 向 多 个 服务 请 求 返回 
一 个 “TOO BUSY” 的 响应 ， 以 防止 应 用 程序 前 泪 。 但 很 少 有 用 户 会 认为 “TO0 
BUSY” 是 一 个 成 功 吞 吐 量 响应 或 能 看 作 是 一 个 goodput。 因 此 ， 用 户 将 吞吐 量 定义 
为 最 大 可 接受 事务 或 影响 率 。 本 书 将 在 第 13.6 节 “ 服 务 吞 吐 量 需 求 ” 中 讨论 服务 
否 吐 量 的 度量 。 


2.5.7 服务 时 间 惟 精度 


出 于 计 费 、 规 范 要 求 或 是 一 些 操作 上 的 原因 ， 如 故障 ， 应 用 程序 必须 仔细 记录 
时 间 惟 。 一 些 应 用 程序 和 管理 系统 使 用 时 间 戳 来 记录 一 一 之 后 用 于 重建 一 一 操作 的 
时 序 ， 因 此 错误 的 时 间 戳 可 能 会 产生 错误 的 操作 /事件 序列 。 尽 管 最 终 用 户 可 能 不 
会 考虑 规范 的 要 求 或 操作 的 原因 ， 但 应 用 程序 的 规范 和 事务 的 用 户 可 能 依靠 精确 的 
时 间 惟 来 做 完成 工作 。 正 如 在 第 4.7 节 讨 论 的 “时 钟 漂移 ”所 述 ， 虚 拟 化 可 能 影 
响 运 行 在 虚拟 机 实例 上 的 应 用 程序 或 客户 0S 软件 的 实时 时 间 准 确 性 ， 这 是 因为 与 
本 地 的 硬件 不 同 ， 虚 拟 机 实例 采用 的 是 通用 协调 时 间 (UTC)。 本 书 将 在 第 13.7 节 
“时 间 惟 精度 需求 ”中 讨论 时 间 惟 精度 的 度量 。 | 


2.5.8 特定 应 用 程序 的 服务 质量 度量 


不 同类 别 的 应 用 程序 通常 具有 特定 于 应 用 程序 的 服务 质量 度量 ， 例 如 

。 平均 意见 得 分 : 描述 终端 用 户 对 于 服务 的 总 体质 量 体 验 ， 特 别 是 流 媒体 服 
务 ， 如 语音 电话 、 交 互 式 视 频 会 议和 视频 回放 。 平 均 意 见得 分 (Mean 
Opinion Scores, MOS) [P. 800] 通常 表示 为 五 个 度量 级 别 ， 见 表 2. 1 。 


表 2.1 平均 意见 得 分 [P. 800] 










几乎 无 法 查 觉 
可 以 查 觉 但 没有 影响 
有 轻微 的 影响 
有 影响 
令 人 厌烦 的 影响 


流 媒体 应 用 程序 的 服务 质量 指标 主要 受 编码 和 解码 (又 名 编 解码 器 ) 算法 与 实 
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现 ， 数 据 包 丢失 ， 数 据 包 延迟 以 及 抖动 的 影响 。 通 过 择 动 缓冲 区 ， 当 传输 数据 包 不 
可 用 时 ， 能 够 减 小 数据 包 传输 时 的 改变 或 实现 包 补 偿 算 法 ,使 得 复杂 的 客户 端 应 用 
程序 能 够 对 用 户 屏蔽 服务 质量 的 缺陷 。 服 务 质量 缺陷 会 导致 最 终 用 户 对 于 整体 服务 
质量 的 体验 变 差 。 对 于 大 多 数 应 用 程序 而 言 ， 高 服务 质量 意味 着 需要 低 延 时 、 低 拌 
动 和 最 小 丢 包 率 ， 然 而 ,抖动 的 容 妨 度 和 丢 包 率 实 际 上 是 独立 于 应 用 程序 和 用 户 
的 。 服 务 质量 主要 考虑 在 终端 用 户 的 物理 交互 接口 进行 补偿 ,例如 用 户 听 到 的 音频 
或 呈现 在 用 户 的 眼前 的 视频 。 然 而 ， 呈 现在 用 户 面前 的 音频 、 视 频 和 其 他 服务 的 服 
务 质量 缺陷 ， 实 际 上 受到 许多 因素 的 影响 ， 包 括 应 用 程序 本 身 ， 接 和 人 网 络 的 包 延 
迟 、 丢 包 和 拌 动 ， 以 及 设备 的 质量 和 性 能 ， 包 括 是 否 编码 和 解码 等 因素 。 例 如 ,无 
线 电 话 的 霹 音 质量 受到 音频 编码 融 / 解 码 器 《又 名 编 解码 顺 ) 的 影响 ， 同 时 还 受 接 
入 无 线 网 络 延迟 ， 拌 动 和 网 络 丢 包 率 ， 以 及 传输 过 程 中 是 否 音 频 转 码 的 影响 。 任 何 
一 个 在 服务 交付 路 径 上 的 单个 组 件 服务 质量 都 会 影响 整体 的 服务 质量 (例如 ， 一 个 
基于 云 的 应 用 程序 ) ， 而 这 些 影响 通常 是 难以 定量 描述 的 。 端 到 端的 服务 质量 将 在 
第 10 章 “ 端 到 端 考虑 因素 ”中 阐述 。 
e 音频 /视频 同步 (又 名 “ 层 同 步 ”) : 音频 和 视频 的 同步 是 一 个 关键 的 流 媒 
体 服务 质量 , 因为 如 果 声 音 的 漂移 超过 50ms ,会 导致 与 演讲 者 的 嘴 形 图 像 
无 法 对 上 ， 观 众 对 于 服务 质量 的 满意 程度 就 会 降低 。 


2.6 技术 服务 与 支持 服务 


“服务 质量 ”这 一 与 应 用 程序 相关 的 术语 ,通常 被 用 于 两 个 不 同 的 环境 : 应 用 
程序 实例 的 技术 服务 质量 (第 2.6.1 节 ) 或 由 供应 商 或 服务 提供 商 提供 给 用 户 的 
支持 服务 质量 (第 2.6.2 节 )。 在 本 书 中 ,术语 “服务 质量 ”是 指 技术 服务 质量 ， 
而 不 是 指 文 持 服务 质量 。 


2.6.1 技术 服务 质量 


技术 服务 质量 描述 通过 面向 用 户 服 务 边界 交付 给 用 户 的 应 用 程序 服务 ， 如 服务 
可 用 性 (第 2.5.1 节 )， 服 务 延 迟 (第 2.5.2 节 ) 和 服务 可 靠 性 (第 2.5.3 市 )。 


2.6.2 支持 服务 质量 


供应 商 和 服务 提供 商都 会 为 他 们 的 客户 提供 技术 支持 服务 。 许 多 读者 对 帮助 台 

和 客户 支持 服务 十 分 熟悉 。 与 技术 服务 KQI 一 样 ， 支 持 服务 KO 根据 应 用 程序 或 、 
服务 支持 的 类 型 不 同 而 不 同 。 支 持 服 务 KQI 通常 包括 三 个 指标 : 

© 响应 : 服务 提供 商 能 够 很 快 响应 客户 的 援助 请 求 。 例 如 ， 响 应 一 个 寻求 帮 

助 电话 的 时 间 是 一 种 常见 响应 时 间 指 标 ， 客 户 对 于 不 同 的 情况 可 能 希望 不 

同 的 响应 时 间 ， 拨 打 911 请 求 紧急 援助 与 打 电 话 到 信用 卡 公司 解决 计 费 问 
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题 所 布 望 的 啊 应 时 间 是 不 同 的。 支持 服务 响应 时 间 的 起 始点 和 终止 点 ， 根 
据 行业 惯例 和 供应 商 策略 会 有 所 不 同 。 

。 恢复 : 是 指 服务 恢复 的 速度 。 注 意 ， 服 务 有 时 是 通过 一 个 解决 方案 才 得 以 
恢复 的 ， 如 临时 配置 更 改 或 重新 启动 进程 。 

。 解决 : 解决 问题 通常 需要 纠正 真正 的 问题 根源 ， 如 安装 软件 补丁 以 修补 软 
件 生产 过 程 中 遗留 的 缺陷 。 行业 惯例 和 供应 商 策 略 将 决定 何 时 需要 解决 一 
个 问题 ， 例 如 计划 安排 交付 一 个 补丁 或 实际 交付 一 个 补丁 或 已 经 安装 了 一 
个 补丁 并 在 生产 环境 中 进行 验证 。 

支持 服务 中 ， 只 有 与 寻 址 技术 服务 质量 相关 的 中 断 和 缺陷 才 会 被 考虑 。 


2.7 安全 事项 


无 论 对 于 传统 应 用 程序 还 是 基于 云 的 应 用 程序 ; 安全 攻击 都 属于 慢性 风险 。 质 
量 和 可 靠 性 关注 在 传输 过 程 中 能 够 具有 可 接受 的 质量 ; 地 址 拒绝 安全 确保 不 受 非法 
传输 和 其 他 安全 风险 的 影响 。 通 过 分 布 式 拒绝 服务 (DDoS) 的 安全 攻击 可 以 直接 
影响 服务 可 用 性 、 可 访问 性 、 春 吐 量 和 应 用 程序 服务 质量 。 算 改 应 用 程序 数据 和 配 
置信 息 可 能 会 影响 服务 的 可 靠 性 和 正确 性 。 质 量 和 可 靠 性 是 两 个 不 同 的 处 理 流程 ， 
但 应 该 实现 并 行 。 计 算 机 安全 ,尤其 是 云 安全 ， 是 十 分 活跃 和 重要 的 话题 ,但 已 经 
超出 了 本 书 的 讨论 范围 。 读 者 可 以 通过 访问 众多 安全 方面 的 资源 ,例如 [CSA]， 
获取 更 多 关于 这 方面 内 容 的 信息 。 


BIR a 模 型 


云 计算 本 质 上 是 一 种 商业 模型 。 在 这 种 模型 下 ， 个 人 或 者 组 织 用 户 把 支持 其 应 
用 服务 的 计算 、 内 存 、 存 储 以 及 主机 网 络 等 这 些 资 源 的 运营 和 所 有 权 外 包 给 云 计算 
提供 商 。 这 种 计算 转变 为 一 种 实用 模型 ， 如 电力 、 水 、 电 话 、 宽 带 上 网 等 ， 在 这 种 
模型 下 服务 提供 商 拥 有 并 运营 所 必需 的 设备 和 设施 ， 以 提供 计算 服务 并 且 消 费 者 能 
够 按 需 使 用 服务 。[ NTST] 对 云 计算 做 出 如 下 定义 : 

一 个 可 以 随时 的 ， 方便 的 ， 按 需 通 过 网 络 访问 共享 资源 池 的 计算 资源 (例如 
网 络 、 服 务 器 、 存 储 器 、 应 用 程序 和 服务 ) ， 资 源 池 可 以 通过 最 小 化 管理 开销 或 服 
务 提供 商 交 互 操作 实现 快速 地 配置 和 发 布 。 云 模型 由 5 个 基本 特征 ，3 个 服务 模 
型 ，4 个 部 署 模 型 组 成 。[ SP800-145] 

本 章 将 阐述 云 计算 的 标准 角色 ， 服 务 模式 和 本 质 特征 。 本 章 最 后 将 对 云 空间 和 
可 用 区 域 作 简要 介绍 。 


3.1 云 计 算 中 的 角色 
图 3. 1 在 第 2 章 “ 应 用 程序 服务 质量 ”中 使 用 过 的 简单 应 用 模型 中 ,标识 了 


去 用 尸 和 云 服务 提供 商 角 色 。 本 书 将 重点 放 在 了 云 用 户 和 云 服务 提供 商 上 ， 因 为 他 
们 通常 对 于 应 用 程序 服务 质量 以 及 架构 的 服务 质量 具有 主要 责任 。 


接 入 与 


终端 | 广域网 络 
用 户 





图 3.1 一 个 简单 应 用 中 的 云 角 色 


去 用 户 通 过 从 一 个 或 多 个 云 服务 提供 商 的 计算 架构 应 用 中 选择 和 集成 软件 组 件 
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来 提供 应 用 服务 给 终端 用 户 。 一 个 或 多 个 云 或 全 运营 商 为 云 数据 中 心 和 最 终 用 户 
提供 它们 之 间 的 网 络 连接 。 


3.2 云 服 务 模型 


NIST 定义 了 3 种 云 服务 模型 : 
。 架构 即 服务 〈IaaS) : 提供 给 消费 者 的 能 力 是 处 理 、 存 储 、 网 络 和 其 他 基本 
的 计算 资源 ， 消 费 者 能 够 用 于 部 署 和 运行 任意 软件 ， 包 括 操 作 系统 和 应 用 
程序 | SP800-145 | 。 
。 平台 即 服务 (PaaS): 提供 给 消费 者 的 能 力 是 将 使 用 供应 商 支 持 的 编程 语 
言 、 库 、 服 务 和 工具 创建 的 或 用 户 创 建 的 应 用 程序 部 署 到 云 砍 构 上 
[ SP800- 145 ] 。 
© 软件 即 服务 (SaaS); 提供 给 消费 者 的 能 力 是 使 用 在 云 架 构 上 运行 的 供应 商 应 
用 程序 。 应 用 程序 是 从 各 种 客户 端 设备 或 通过 微型 客户 端 接口 ， 如 Web 浏览 
器 〈 例 如 ， 基 于 Web 的 电子 邮件 ) ， 或 程序 接口 进行 访问 【SP800-145]。 
TaaS 或 PaaS 的 服务 提供 商 面 向 用 户 服务 边界 是 基于 云 的 应 用 程序 的 资源 服务 
边界 。 本 书 重点 放 在 基于 云 的 应 用 程序 ,但 也 将 考虑 IaaS/ PaaS 的 服务 边界 ， 即 作 
为 应 用 程序 的 面向 资源 服务 边界 。 


3.3 ” 云 的 基本 特征 


云 计算 有 如 下 5 个 基本 特征 [SP800-145 ] : 

1) 按 需 上 自助 服务 〈 第 3.3.1 节 ); 

2) 广泛 的 网 络 访问 〈 第 3.3.2 节 ); 

3) 资源 池 【第 3.3.3 T); 

4) 快速 弹性 (58 3.3.4 49) ; 

5) 度量 服务 〈 第 3.3.5 节 )。 

每 个 特征 的 最 高 级 别 的 应 用 程序 服务 质量 风险 将 进行 单独 说 明 。 


3.3.1 按 需 目 助 服 务 


按 需 日 助 服务 被 定义 为 “消费 者 可 以 单方 面 规定 计算 能 力 ， 例 如 服务 时 间 
和 网 络 存储 ， 作 为 自动 而 不 需要 与 每 个 服务 提供 商 进 行 交互 ”[ SP800-145 ]。 按 
需 目 助 服务 使 基于 云 的 应 用 程序 远 比 传统 的 应 用 灵活 ， 因 为 新 的 资源 可 以 通过 云 
计算 用 户 快速 的 分 配 和 释放 。 这 自然 会 导致 需要 更 多 的 配置 和 容量 变化 ， 许 多 这 
些 需 求 变化 会 发 生 在 满足 云 用 户 方 便 使 用 的 时 间 段 而 不 是 维护 时 间 段 〈 例 如 半 
夜 ) 。 因 此 ， 提 供给 基于 云 的 应 用 程序 的 操作 和 服务 必须 具有 高 服务 可 用 性 和 服 
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务 质 量 ， 能 够 适应 按 需 配置 的 变化 发 生 是 在 中 度 到 重度 应 用 程序 使 用 时 间 段 内 的 
需要 。 


3.3.2 广泛 的 网 络 访问 


广泛 的 网 络 访问 被 定义 为 “资源 可 以 通过 互联 网 ， 使 用 标准 机 制 规定 的 异 构 
瘦 客 户 端 或 富 客 户 端 平 台 进 行 访问 ” [ SP800- 145 ] 。 终 端 用 户 通过 IP 接 入 和 广 域 
网 使 用 基于 云 的 应 用 程序 。 端 到 端 服务 质量 将 在 第 10 章 “ 端 到 端 考虑 因素 ”中 
PAI 
3.3.3 资源 池 


资源 池 被 定义 为 “供应 商 的 计算 资源 集中 通过 多 租户 模式 服务 于 多 个 消费 者 ， 
根据 消费 者 的 需求 动态 分 配 和 重新 分 配 不 同 的 物理 和 虚拟 资源 …… 资 源 包 括 存储 、 
处 理 、 内 存 和 网 络 带宽 ”[SP800-145 ] 。 传 统 上 ， 应 用 程序 和 它们 支持 的 操作 系统 
被 直接 部 署 到 本 机 硬件 上 ， 所 以 在 名 义 上 由 硬件 提供 的 计算 、 内 存 、 存 储 和 网 络 资 
源 的 全 部 容量 都 在 由 操作 系统 不 断 的 分 时 提供 给 不 同 的 应 用 程序 。 多 个 用 户 共 享 池 
中 的 资源 不 可 避免 的 会 引发 资源 争夺 的 风险 ， 包括 “交付 退化 的 虚拟 机 容量 ” 
(第 4.4 节 ) ， 增 加 “尾部 延迟 ”( 第 4.5 节 ) 和 “时 钟 事件 抖动 ” 〈 第 4.6 节 )。 由 
资源 共享 策略 和 技术 (如 虚拟 化 ) 导致 的 应 用 程序 服务 质量 风险 是 这 部 分 重点 关 
注 的 内 容 。 


3.3.4 快速 弹性 


快速 弹性 被 定义 为 “功能 能 够 自动 地 可 弹性 配置 和 发 布 ， 在 某 些 情况 下 能 够 
根据 需求 快速 向 外 扩展 或 向 内 相称 。 对 于 消费 者 来 说 ， 可 以 获得 的 能 力 似乎 是 无 限 
的 ， 服 务 可 以 在 任何 时 间 进 行 交 付 ”。[ SP800-145] 图 3.2 所 示 的 3 个 基本 弹性 增 
长 策略 : 
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图 3.2 弹性 增长 策略 
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。 水 平 增长 。 添 加 更 多 的 资源 实例 〈( 例 如， 向 现 有 的 应 用 程序 实例 增加 虚拟 
机 和 虚拟 磁盘 卷 )。“ 向 外 扩展 ”是 指 横 向 的 增长 操作 ， 如 增加 更 多 的 虚拟 
机 实例 ;“ 向 内 扩展 ”是 指 横向 逆 增 长 〈 即 缩减 ) 操作 。 

。 垂直 增长 。 增 加 对 现 有 应 用 程序 实例 的 资源 分 配 ( 例 如， 增加 现 有 VM 实 
例 的 内 存 分 配 或 现 有 虚拟 存储 设备 的 最 大 磁盘 分 配 )。“ 向 上 扩展 ” 指 的 是 
垂直 增长 操作 ， 如 增加 预先 分 配 的 虚拟 磁盘 分 区 的 大 小 ;“ 向 下 扩展 ”是 指 
垂直 逆 增 长 〈 即 缩减 ) 操作 。 请 注意 ， 垂 直 增 长 的 一 个 选项 是 用 较 大 的 实 
例 取 代 之 前 分 配 的 虚拟 机 实例 。 | 

e。 向 外 扩展 : 通常 意味 着 在 另 一 个 云 数据 中 心 实例 化 一 个 新 的 应 用 程序 实例 。 

弹性 度量 将 在 3. 5 节 讨 论 ， 弹 性 增长 和 逆 增 长 将 在 第 8 章 “ 容 量 管理 ”中 进 

行 详细 分 析 。 


3.3.5 度量 服务 


度量 服务 被 定义 为 “ 云 系统 自动 地 通过 一 定 程度 的 计量 能 力 ， 某 种 程度 上 可 
以 抽象 为 服务 的 类 型 (例如 存储 、 处 理 、 带 宽 和 活动 用 户 账 户 ) 来 控制 和 优化 资 
源 的 使 用 。 资 源 的 使 用 可 以 被 监视 ， 控 制 和 报告 ， 为 供应 商 和 消费 者 提供 透明 度 服 
务 ”[SP800-145] 。 将 弹性 需求 与 度量 服务 相 结 合 ， 使 云 用 户 能 够 主动 管理 应 用 程 
序 的 在 线 容 量 。 第 8 章 “ 容 量 管理 ”将 考虑 在 线 应 用 程序 容量 可 能 遇 到 的 容量 不 
足 错 误 和 失败 。 


3.4 ”简化 云 架构 


与 laaS (在 云 服务 模型 栈 的 底部 ) ， 或 SaaS (在 云 服务 模型 栈 的 顶部 ) 相 比 ， 
PaaS 在 本 质 上 的 定义 不 太 明确 。 云 架构 不 应 该 专注 于 IaaS: PaaS 或 PaaS; SaaS 的 
die 而 应 该 考虑 由 5 个 逻辑 组 件 组 成 的 简化 云 模型 : 

应 用 软件 (第 3.4.1 节 ); 

re 

。 虚拟 机 服务 器 控制 器 (第 3.4.3 节 ); 

© 云 操 作文 撑 系 统 (第 3.4.4 市 ); 

。 云 技术 组 件 “ 即 服务 ”( 第 3.4.5)。 

图 3.3 说 明了 前 4 个 简化 的 组 件 类 型 如 何 进 行 交互 。 技 术 组 件 即 服务 ( “as- 
a- Service” ) - 如 “数据 库 即 服务 ”， 在 逻辑 上 是 黑 盒 子 ， 应 用 程序 可 以 配置 和 使 
用 ， 并 且 可 以 被 认为 是 Paas 的 组 成 部 分 。 


3.4.1 应 用 软件 
应 用 程序 实例 是 包括 实例 化 套件 的 虚拟 机 应 用 程序 软件 组 件 和 客户 操作 系统 的 
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应 用 程序 的 面向 用 户 服 务 应 用 程序 的 面向 资源 一 个 或 多 个 云 操作 
边界 服务 边界 支持 系统 确保 应 用 






程序 服务 编排 运算 


VM 服 务 器 控制 
器 通过 VM 服务 
器 池 分 配 并 管理 
VM 配置 


图 3.3 云 架构 的 简单 模型 


实体 。 传 统 上 ， 应 用 程序 的 质量 测量 与 网 络 元 素 或 系统 实例 的 测量 不 同 。 网 元 和 系 
统 的 标准 定义 ”不 完全 适合 云 部 署 ， 但 在 第 12 章 ,“ 服 务 可 用 性 度量 ”提供 了 基于 
云 计算 应 用 程序 部 署 的 一 个 示例 。 


3.4.2 虚拟 机 服务 器 


虚拟 机 在 物理 服务 器 托 管 虚拟 机 实例 。 图 3. 4 所 示 是 一 个 由 虚拟 机 实例 组 成 的 
虚拟 机 服务 器 ， 这 些 虚 拟 机 实例 运行 在 服务 器 或 通用 计算 机 上 的 虚拟 机 管理 器 或 由 
管理 软件 托管 。 虚 拟 机 服务 器 往往 会 由 大 规模 机 架 式 服务 器 (RMS) 的 组 成 并 作 
为 预 配置 设备 交付 。 需 要 注意 的 是 VM 实例 是 短暂 的 ， 并 可 能 是 动态 创建 的 ， 在 被 
释放 之 前 活跃 数 小 时 、 数 天 、 数 周 或 数 月 。 支 持 虚拟 机 服务 器 的 物理 硬件 预计 可 以 
服务 多 年 。 


“系统 ”由 [TL_9000] 定义 为 :“ 位 于 一 个 或 多 个 物理 位 置 中 的 硬件 和 /或 软件 元 素 的 集合 ， 集 合 中 
所 有 的 元 素 都 正常 运行 。 没 有 单个 元 素 可 以 独立 完成 全 部 功能 ”,“ 网 元 ”( NE)[TL_9000] 定义 为 : 
“一 种 系统 设备 ， 实 体 或 节点 包括 位 于 一 个 位 置 中 的 所 有 相关 的 硬件 和 /或 软件 组 件 。 网 元 (NE) 必 
须 包 括 履行 其 适用 的 产品 类 别 主要 功能 所 需 的 所 有 组 件 。 如 果 需 要 多 个 FRU 的 ， 设备 和 /或 软件 组 件 
组 成 的 网 元 ， 才 能 提供 其 产品 类 别 的 主要 功能 ， 则 这 些 单独 组 件 不 能 独立 认定 为 网 元 。 所 有 这 些 组 
件 的 总 合 才 被 认为 是 一 个 NE。 注 意 : 当 一 个 网 元 可 以 包括 电源 、CPU、 外 设 卡 、 操 作 系统 和 执行 主 
要 功能 的 应 用 软件 ， 没 有 单个 元 素 有 权 认 为 自己 是 一 个 的 网 元 "。 
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应 用 软件 A~Z (支持 客户 OS 实例 ) ， 运 行 在 
正确 配置 的 VM 实例 上 而 不 是 专用 的 硬件 上 。 
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管理 程序 或 虚拟 机 管理 器 
(可 能 加 上 主机 操作 系统 ) 
虚拟 机 服务 器 


图 3.4 虚拟 机 服务 器 的 抽象 


3.4.3 ”虚拟 机 服务 器 控制 器 


虚拟 机 服务 紫 实 现 高 效 的 资源 共享 ， 允 许多 个 应 用 程序 整合 到 一 起 ， 比 传统 的 
专用 硬件 配置 的 硬件 少 得 多 。 越 来 越 多 的 应 用 整合 和 资源 共享 的 规模 压低 运营 支出 
( Operational Expenditure ，OPEX) ， 并 最 终 引 发 了 所 谓 的 仓库 规模 的 计算 。 有 效 地 
操作 虚拟 机 的 服务 右 池 ， 专 业 在 线 操作 支持 系统 ( Opration Support System, OSS) 
包 Q 称 为 虚拟 机 服务 旭 控 制 闫 。 虚 拟 机 服务 此 控 制 右 分 配 、 管 理 和 控制 托管 在 一 个 或 
多 个 虚拟 机 的 服务 器 上 的 虚拟 机 实例 ， 包 括 相 应 的 硬件 资源 。 这 些 控制 器 减少 用 户 
服务 对 虚拟 机 服务 画 的 影响 ， 如 采用 特定 应 用 反 关 联 规则 以 确保 没有 单个 虚拟 机 服 
务 圳 成 为 一 个 单 点 故障 的 应 用 程序 〈 见 第 7.2.4 节 ,“ 在 云 计算 中 确保 无 SPOF” )。 
这 些 控制 右 将 参与 服务 编排 和 联合 支持 云 爆发 。 虚 拟 机 服务 器 更 多 关注 单个 虚拟 机 
实例 ， 而 虚拟 机 服务 器 控制 右 则 控制 单个 应 用 程序 实例 的 映射 成 多 个 虚拟 机 实例 的 
集合 ， 集 合 中 的 多 个 虚拟 机 实例 有 可 能 被 分 布 在 多 个 虚拟 机 服务 器 上 。 


3.4.4 云 操作 支持 系统 


0SS 系统 提供 了 众多 的 功能 ， 操 作 、 管 理 、 维 护 并 提供 应 用 程序 在 虚拟 机 服务 
器 上 运行 ， 同 时 支持 云 计 算 架 构 。 例 如 OSS 支持 对 应 用 程序 组 合 、 弹 性 增长 、 云 
爆发 以 及 相关 的 服务 管理 功能 编排 。0SS 的 功能 通常 分 布 在 多 种 类 型 实例 的 互联 支 
持 系 统 。 例 如 ， 执 行 应 用 增长 到 男 一 个 云 数据 中 心 ， 不 可 避免 地 需要 由 一 个 或 多 个 
OSS 系统 协调 与 该 虚拟 机 服务 器 控制 絮 所 在 的 云 数据 中 心虚 拟 机 服务 器 。 


3.4.5 云 技术 组 件 “ 即 服务 ” 
云 计算 鼓励 客户 和 服务 提供 商 将 常见 的 标准 技术 组 件 作为 服务 而 不 是 软件 产品 
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看 行 。 因 此 ， 相 对 于 被 迫 购买 技术 组 件 ， 例 如 数据 库 管理 系统 或 负载 平衡 器 ， 然 后 
安装 、 操 作 和 维护 ， 云 慌 励 服务 提供 商 提 供 技 术 组 件 作 为 “as- a- Service”。 该 技术 
组 件 作 为 一 种 服务 产品 降低 了 大 多 数 云 消费 者 的 CAPEX 和 OPEX， 并 且 使 他 们 能 
够 专注 于 企业 增值 ， 而 不 是 投资 于 维护 技术 组 件 的 操作 。 为 了 便于 分 析 ， 提 供 这 些 
技术 组 件 “ 即 服务 ”只 会 被 视 为 与 应 用 程序 组 件 交 互 ， 并 为 最 终 用 户 提 供应 用 服 
务 组 件 实例 。 


3.5 弹性 度量 


在 线 容 量 快速 弹性 增长 提供 超越 传统 上 支持 本 地 应 用 的 新 功能 ， 从 而 新 的 服务 
标准 是 适当 的 测量 应 用 程序 的 快速 弹性 增长 的 关键 质量 特性 。 云 计算 产业 还 没有 正 
式 规范 的 弹性 指标 ， 所 以 ,本 书 中 作者 将 使 用 以 下 弹性 度量 的 概念 : 

。 密度 (35 3.5.1 79); 

。 配置 间隔 (第 3.5.2 77); 

。 FER (58 3.5.3 市 ); 

e 问 内 和 向 外 扩展 (55 3.5.4 77); 

e 向 上 或 向 下 扩展 (38 3.5.5 节 );- 

。 敏捷 性 (83.5.67); 

© 转换 速率 和 线性 度 (83.5.77); 

e 弹性 加 速 (第 3.5. 8 市 )。 


3.5.1 密度 


[ SPECOSGReport] 提出 了 一 种 云 密度 度量 方式 “测量 有 和 多少 实例 可 以 在 [ 单 
元 测试 ] 运行 前 的 性 能 低 于 特定 的 [服务 质量 ] E” 不 同 的 云 服 务 提供 商 的 虚拟 
化 架构 支持 不 同 的 密度 〈 如 每 一 个 虚拟 机 实例 的 工作 负载 ) ， 例 如 : 

。 底层 的 硬件 组 件 和 架构 ; 

© 虚拟 机 管理 程序 和 主机 软件 ; 

© 云 服 务 提供 商 的 业务 策略 和 架构 配置 。 

虚拟 机 密度 同时 受 应 用 程序 的 体系 结构 以 及 由 云 服务 提供 商 提供 的 虚拟 架构 质 
量 的 影响 。 图 2. 12 显示 了 尾部 延迟 可 以 受到 工作 负载 密度 的 显著 影响 。 交 付 退 化 
的 虚拟 化 资源 (参见 4.4 节 ， 交 付 退 化 的 虚拟 机 容量 ) 可 能 会 降低 能 够 持续 提供 
可 接受 的 服务 质量 的 工作 负载 。 例 如 ， 随 着 工作 负载 的 增加 ， 云 计算 架构 可 能 开始 
丢弃 在 最 繁忙 时 刻 的 IP 数据 包 ; 这 些 被 丢弃 的 数据 包 的 超时 到 期 和 重 传 会 直接 增 
加 应 用 程序 的 服务 延 时 。 如 果 云 服务 提供 商 的 虚拟 化 架构 不 能 始终 提供 足够 的 资源 
吞吐 量 和 具有 可 接受 质量 的 应 用 程序 ， 则 应 用 程序 通常 需要 水 平 增 长 以 减少 密度 ， 
以 便 该 应 用 程序 的 延 返 (特别 是 尾部 延迟 ) 降低 。 
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3.5.2 配置 间隔 


传统 上 ， 需 要 数 天 或 数 周 为 用 户 订 购 和 取 送 物理 计算 、 内 存 、 网 络 或 存储 便 
件 ， 然 后 通过 手动 安装 ， 之 前 的 应 用 软件 可 以 被 重新 配置 以 使 用 额外 的 资源 。 云 计 
算 显 著 减 少 了 这 些 延 迟 ， 资 源 获 取 的 时 间 从 数 天 或 数 周 减少 至 数 分 钟 或 更 少 。 
[ SPECOSGReport ] 提出 了 一 种 配置 间隔 (provisioning interval) 的 云 度 量 方式 ， 这 
是 “ 当 资 源 已 准备 响应 第 一 个 请 求 或 已 响应 第 一 个 请 求 时 ， 发 起 请 求 与 获取 或 放 
弃 新 资源 之 间 的 时 间 ”。 图 3. 5 所 示 为 配置 间隔 Te, 的 在 线 容 量 水 平 增 长 。 间 陋 从 
云 08$S、 人 或 其 他 实体 发 起 在 线 应 用 程序 容量 弹性 增长 开始 。 间 隅 包括 以 下 内 容 : 


配置 间隔 


增长 操作 的 时 间 受 
服务 编排 机 制 性 能 ， 
IaaS 平 台 与 系统 性 


能 以 及 应 用 程序 自 
身影 响 





图 3.5 配置 间 隅 Tec。 


1) Z OSS 要 求 云 架构 提供 额外 的 虚拟 资源 〈 如 虚拟 机 实例 ) ; 

2) 云 服务 提供 商 成 功 地 分 配额 外 的 虚拟 资源 并 将 它们 分 配给 云 用 户 ; 

3) 初始 化 应 用 软件 到 新 分 配 或 增加 的 虚拟 资源 ; 

4) 验证 新 的 应 用 程序 组 件 能 否 正常 工作 ， 如 通过 测试 流量 或 其 他 操作 验证 ; 

5) 将 新 的 或 增加 的 虚拟 资源 与 现 有 的 应 用 程序 组 件 同步 。 

当 新 的 应 用 程序 容量 满足 用 户 流 量 时 ， 该 间 隅 结束 。 注 意 ， 配 置 间隔 可 应 用 于 
VM 实例 和 永久 存储 。 

弹性 增长 被 云 服 务 提 供 商 提供 的 资源 量化 为 应 用 程序 容量 的 离散 单元 。 图 3. 5 
所 示 为 应 用 程序 容量 的 Ce 增长 。 可 以 通过 考虑 以 每 个 虚拟 化 云 资 源 〈 如 虚拟 机 
实例 ) 为 单位 申请 容量 (Cow) 单元 ， 从 而 定义 逻辑 密度 增长 的 度量 。 例 如 ， 一 
个 应 用 程序 可 能 会 为 100 个 额外 的 活路 用户 ( 即 Ce, =100 个 用 户 ) 增加 容量 。 

配置 间隔 在 很 大 程度 上 是 由 应 用 程序 的 体系 结构 和 弹性 增长 过 程 决 定 的 ,但 云 
服务 提供 商 需 要 的 配置 间隔 应 该 能 够 分 配额 外 的 虚拟 化 资源 ， 同 时 还 能 够 在 关键 路 
径 上 保证 具有 足够 的 资源 可 供 使 用 ， 这 会 对 整体 的 时 间 间 隔 产 生 影响 。 需 要 注意 的 
是 ， 弹 性 增长 的 操作 通常 发 生 在 应 用 程序 实例 负载 沉重 或 负荷 不 断 增长 的 情况 下 ， 
因此 ， 弹 性 增长 时 应 用 程序 的 性 能 可 能 会 比 应 用 程序 实例 在 轻 度 或 中 度 负载 时 差 。 
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3.5.3 释放 间隔 


工作 负载 减少 时 不 需要 的 弹性 应 用 程序 应 该 能 够 正常 释放 资源 。 而 需要 释放 应 
用 程序 容量 时 ， 并 不 会 影响 用 户 的 服务 ， 当 所 提供 的 工作 负载 具有 拉锯 效应 ( 参 
见 第 8.9 节 ,“ 负 载 拉 句 ”) 该 度量 可 能 是 重要 的 。 图 3. 6 所 示 为 资源 释放 时 间 轴 。 
释放 间隔 (Tsui) 开始 时 ， 云 0SS、 人 或 其 他 实体 决定 发 起 容量 逆 增 长 操作 ， 
包括 : 
释放 间隔 


增长 操作 的 时 间 受 应 用 程序 
性 能 以 及 IaaS 平 全 和 系统 性 
能 的 影响 
虚拟 机 实例 (或 VM 实例 对 ) 
是 容量 逆 增 长 的 典型 单元 


基于 应 用 程序 的 
道 增长 活动 可 以 
在 任何 时 间 发 起 





图 3.6 释放 间隔 Ts 


1) 选择 需要 释放 的 虚拟 化 资源 ; 

2) 阻止 新 的 流量 被 分 配 到 选 定 要 释放 的 资源 ; 

3) 从 选 定 资源 处 排出 或 迁移 活动 流量 。 需 要 注意 的 是 ， 如 果 流 量 不 能 够 很 快 
的 从 选 定 的 资源 处 释放 ， 则 可 能 会 被 终止 ; 

4) 释放 所 选 资源 。 

Cs 是 应 用 程序 的 容量 单元 ， 由 释放 操作 决定 。Cc 和 Cswsw 往往 是 相同 的 
(例如 ， 虚 拟 机 实例 的 一 个 应 用 程序 既 可 以 增长 ， 同 时 也 可 以 收缩 在 线 容 量 ) H 
于 资源 使 用 是 按 小 时 计 费 ， 因 此 用 几 秒 钟 或 几 分 钟 释放 资源 Tas ， 对 用 户 业 务 没 
有 影响 什么 影响 ， 减 少 Ts 可 能 产生 的 运营 成 本 节省 微不足道 。 

释放 间隔 受到 将 流量 从 待 释放 的 资源 处 排出 或 迁移 需要 的 时 间 影 响 。 应 用 程序 
的 性 质 (如 有 状态 vs ORAS) 随 着 目标 资源 提供 服务 的 作用 和 云 消费 者 的 意愿 来 
影响 用 户 的 业务 ， 也 影响 资源 被 释放 需要 的 时 间 。 


3.5.4 向 内 和 向 外 扩展 


图 3. 7 所 示 是 水 平 弹 性 的 向 内 和 疝 外 扩展 。 通 常情 况 下 ， 应 用 具有 (在 图 3. 7 
中 的 Rovne) 固定 开销 监控 和 控制 功能 。 这 个 固定 开销 Rose 必须 在 第 一 个 用 户 
服务 - 容量 单元 之 前 被 实例 化 ，Re。, 能 够 在 应 用 程序 服务 第 一 个 用 户 时 被 实例 化 。 
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因此 ， 应 用 程序 实例 需要 Rosa 加 一 个 单元 的 Re 以 服务 于 第 一 用 户 。 
服务 CMin 的 RMin ARF C Max fd Rmax 
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满足 第 一 用 户 的 最 小 配置 
图 3.7 虚拟 机 向 内 和 向 外 扩展 


如 图 3. 8， 应 用 程序 的 资源 使 用 可 以 以 Roen (CMAR VM 实例 ) 为 单位 增长 ， 
从 而 增加 Cc, 为 单位 的 在 线 服 务 容量 。 










CMax 
C Grov 最 大 扩展 配置 消耗 
Corow A i Rmax Bt WHE BEC Max 
Pa pa~ 在 线 应 用 程序 容量 
th 
Rë 
a 
最 小 向 量 缩减 配置 
消耗 Rvin 虚 拟 化 资 
源 同 时 满足 应 用 程 
序 开销 以 及 服务 第 
— FAP 的 在 线 容量 
RGrow RGrow RGrow 增长 的 初始 化 单元 
Kow Grow Grow 
资源 使 用 


图 3.8 水 平 弹 性 


最 大 支持 在 线 容量 的 应 用 程序 实例 常常 受 限 于 : 

。 内 部 算法 : 例如 ， 当 数据 集 变 得 过 大 时 ， 对 未 排序 算法 数据 集 的 线性 搜索 
变 得 不 切实 际 ， 因 此 ， 在 最 大 容量 限制 可 以 增加 之 前 ， 需 要 更 有 效 的 数据 
排列 。 

。 静态 分 配 : 如 果 在 应 用 程序 启动 时 ， 非 弹性 的 数据 结构 是 静态 分 配 的 〈 如 
活动 用 户 会 话 表 ， 打 开 文 件 、VM 实例 等 ) ， 则 该 配置 可 以 限制 应 用 程序 实 
例 的 最 大 容量 。 
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e 许可 限制 : 出 于 商业 原因 ， 应 用 程序 可 能 会 故意 限制 容量 增长 。 例 如 ， 如 
果 一 个 去 用 户 的 应 用 程序 技术 组 件 仅 具有 “X” 个 同步 用 户 会 话 容 量 ， 那 
么 应 用 程序 应 该 蔡 止 容量 增长 超出 许可 容量 。 

© 外 部 约束 : 一 个 应 用 实例 的 最 大 可 用 容量 可 能 会 受到 支持 系统 的 限制 ， 例 
如 信用 卡 付款 处 理 需 向 支付 网 关 发 送 支 付 请 求 。 

。 财政 约束 : 云 计算 的 用 户 可 能 会 受 限于 所 允许 的 最 大 应 用 程序 容量 ， 以 防 
止 超出 预算 。 


3.5.5 问 上 和 问 下 扩展 


图 3. 9 所 示 是 垂直 弹性 增长 的 向 上 和 向 下 扩展 。 理 论 上 ， 人 们 可 以 网 上 或 向 下 
扩展 资源 ， 如 RAM 分配 ，CPU 内 核 数 量 ， 磁 盘 分 区 的 大 小 ，CPU 时 钟 速 率 以 及 
LO 带宽 。 对 于 大 多 数 客户 OS 和 应 用 程序 而 言 ， 一 些 资源 弹性 在 线 垂 直 增 长 〈 例 
如 ，CPU 内 核 ) 是 不 可 行 或 不 切实 际 的 ， 但 是 其 他 一 些 资源 的 在 线 垂 直 增 长 〈 例 
an, CPU 的 时 钟 速率 和 1/O 带宽 ) 则 非常 自然 。 因 此 ， 应 用 程序 可 以 支持 一 些 资 
源 ( 例 如，CPU 的 时 钟 速 率 ) 的 在 线 垂直 增长 (向 上 扩展 ), 但 不 是 全 部 资源 
(例如 ，CPU 内 核 )。 


(例如 CPU 周期 


或 1/O 带 宽 或 RAM ) 





向 下 扩展 
向 已 分 配 的 VM 
实例 减少 资源 





图 3.9 虚拟 机 实例 向 上 和 向 下 扩展 


注意 ， 水 平 增长 不 需要 总 是 以 相同 大 小 的 单位 增长 。 例 如 ， 一 个 应 用 程序 可 以 
理论 上 以 一 个 虚拟 机 为 单位 增长 例如， 双核 CPU), ， 而 当 应 用 程序 继续 水 平 增长 
时 ， 它 能 够 扩大 增长 的 单位 例如， 增加 四 个 CPU AK VM 实例 ) 。 


3.5.6 敏捷 性 


[SPECOSGReport] 提出 了 一 种 度量 云 容量 敏捷 性 的 方法 “能 够 描述 工作 负载 
量化 的 能 力 ， 以 及 系统 尽 可 能 接近 工作 负载 需求 的 能 力 。” 从 本 质 上 讲 ， 该 特征 描 
述 了 在 线 应 用 程序 容量 能 够 追踪 工作 负载 的 紧密 程度 ， 这 一 特性 受到 容量 增长 单位 
(图 3.5 中 的 Co) ， 以 及 应 用 程序 所 支持 的 容量 缩减 程度 (图 3.6 中 的 Covi) 的 
限制 。 从 图 3. 10 中 可 以 很 容易 理解 容量 增长 配额 和 敏捷 性 的 关系 。 每 个 增长 操作 都 
会 增加 C6 额外 的 容量 ; 增长 单位 越 小 ,在线 容量 可 以 越 容易 跟踪 工作 负载 的 需求 。 
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W 
Ww 
地 
外 
Ar 


较 小 CGrow 







应 用 程序 容量 
应 用 程序 容量 





Tg row Tg row 





较 小 单元 的 容量 增长 (Corow) 能 够 使 在 线 容 量 更 接近 
于 输入 负载 


图 3.10 理想 (线性 ) 的 容量 敏捷 性 


需要 注意 的 是 ， 类 似 零售 商 的 实物 库存 ， 具 有 闲置 的 在 线 容量 并 非 一 件 坏事 。 
关键 是 要 认真 管理 网 络 容量 的 “存货 ” ， 从 而 确保 一 旦 工作 负载 发 生变 动 ， 能 够 有 
效 地 为 用 户 提供 可 接受 的 服务 质量 ， 同 时 最 大 限度 地 减少 云 消费 者 的 用 户 服务 质量 
风险 和 OPEX。 因 此 ， 敏 捷 性 是 一 个 重要 的 应 用 特点 ,但 维持 多 少 闲 置 在 线 容量 是 
由 去 用户 的 操作 策略 和 应 用 程序 的 配置 间隔 Ts ,决定 的 。 

Ce 从 根本 上 是 由 两 者 共同 决定 的 ， 一 个 方面 是 云 服 务 如 何 提供 商量 化 资源 
(例如 ， 为 虚拟 机 实例 提供 的 CPU 个 数 和 与 之 匹配 的 RAM) ， 另 一 方面 是 应 用 程序 
的 架构 。 第 8 章 “ 容 量 管理 ”中 将 会 更 详细 地 讨论 这 一 内 容 。 但 一 种 折衷 的 情况 
是 ， 以 不 消耗 过 多 资源 的 开销 来 平衡 C6 的 最 小 单位 (例如 ，Guest OS 实例 与 管 
理 和 控制 功能 一 起 ) ， 与 此 同时 ， 管 理 更 小 的 组 件 实例 而 不 是 少量 大 型 组 件 实例 ， 
从 而 减少 运营 成 本 和 复杂 性 。 


3.5.7 转换 速率 和 线性 度 


电气 工程 师 使 用 转换 速率 的 概念 来 表征 放大 器 的 输出 应 当 多 快 才 可 以 追踪 剧烈 
变化 的 输入 ， 如 图 3. 11 所 示 。 


; 输出 改变 的 最 天 
i | Lata ene geno 
输入 信号 。- 耳 [ 输 出 在 有 限时 间 
瞬间 改变 || | ; | 内 跟踪 输入 变化 


图 3.11 方 波 放大 的 转换 速率 
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就 如 同 放大 器 ， 人 快速 弹性 无 法 时 刻 追 踪 工 作 量 波动 。 相 反 ， 转 换 速 率 能 够 描述 
容量 增长 单元 ( Cc, ) ， 并 添加 在 配置 间隔 Toon (3.5.2 47, “配置 间隔 ” ) 里 。 
因此 ， 应 用 程序 最 大 容量 的 转换 速率 是 最 大 Coo IRA Toowo WE 3.12 所 示 ， 转 换 
速率 捕获 “大 量 ” 应 用 程序 弹性 行为 ， 例 如 应 用 容量 在 一 个 或 更 长 的 时 间 内 能 够 
增长 多 少 。 

转换 速率 体现 在 线 容量 
通过 一 系列 连续 的 增长 


(或 缩减 ) 活动 增加 
(或 减少 ) 的 速率 


k 
A a 
“Grom { A B 三 
CGrow { S a | 2 
线 速 度 描 述 应 用 程度 
容量 变化 范围 内 转换 
速率 的 一 致 性 





图 3. 12 弹性 增长 转换 速率 和 线性 度 


线性 弹性 增长 是 Cow PRU Toro A CR 即 斜 律 或 转换 率 ) ， 在 应 用 程序 的 整个 
弹性 范围 由 Cuna Cu。 例如 ，7ce。。 的 典型 值 是 否 在 整个 应 用 程序 的 弹性 范围 内 保 
持 不 变 ， 还 是 当 在 线 容 量 达 到 Cwx 时 ，7c。。 增 加 〈 或 减少 )? 同样 地 ， 线 性 弹性 缩 
减 是 Csmu 除 以 Torino EEM Cwx 到 Cwx。 如 果 在 应 用 程序 的 整个 容量 范围 内 不 是 
线性 的 ， 则 弹性 策略 将 需要 确保 应 用 程序 的 自动 弹性 策略 能 够 追踪 变化 的 工作 负 
倚 ， 即 使 是 在 应 用 程序 最 缓慢 的 弹性 增长 曲线 点 上 出 现 流 量 激 增 。 


3.5.8 弹性 加 速 


[SPECOSGReport] 提出 了 一 种 云 的 弹性 加 速 测量 方法 ， 能 够 描述 增加 云 资源 
带 来 的 任何 性 能 提升 。 从 本 质 上 说 ， 如 果 分 配 的 资源 增加 了 “X"” ， 应 用 程序 的 看 
吐 量 能 够 大 幅 增 加 多 少 ? 弹性 加 速 的 一 个 例子 是 打扫 房子 : 人 越 多 ， 房 子 清洁 得 越 
快 。 非 弹性 加 速 的 例子 是 怀孕 生 孩 子 : 一 个 女人 怀 宝宝 需要 9 个 月 , 但 9 个 女人 怀 
宝宝 也 不 能 让 婴儿 在 1 个 月 就 出 生 。 一 个 基于 云 的 应 用 程序 可 能 需要 弹性 加 速 ， 例 
如 应 用 软件 二 进 制 文件 的 各 个 模块 可 以 在 不 同 的 虚拟 机 实例 实现 并 行 编译 。 如 果 一 
个 应 用 程序 包括 必须 1000 个 需要 编译 的 源 代 码 文件 ， 则 采用 更 多 的 VM 实例 同时 
编译 这 些 文件 可 以 缩短 整体 作业 的 完成 时 间 。 
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弹性 加 速 由 应 用 程序 的 体系 结构 驱动 。 弹 性 加 速 带 来 的 好 处 是 减少 了 应 用 程序 
消耗 后 资源 能 够 线性 增长 ， 包 括 用 户 流量 的 协调 和 控制 。 


3.6 空间 和 区 域 


传统 上 ， 企 业 会 设置 相距 遥远 的 数据 中 心 ， 使 得 当 灾难 事件 发 生 ， 某 个 数据 中 
心 不 可 用 或 无 法 访问 时 ， 业 务 能 够 不 被 中 断 。 云 计算 可 以 更 容易 的 在 云 数 据 中 心 实 
现 灾难 恢复 服务 ， 无 论 灾 难 发 生地 是 否 远 离 主 数据 中 心 ， 云 数据 中 心 使 得 事件 不 会 
同时 影响 两 个 站 点 。 云 计算 提高 了 应 用 程序 部 署 的 经 济 性 ， 将 实际 的 应 用 程序 实例 
部 署 到 多 个 地 理 上 分 散 的 数据 中 心 ， 从 而 分 散 流量 ， 而 不 是 依靠 单一 主 站 点 和 冷 / 
热 灾难 恢复 站 点 。 

一 些 云 服 务 提供 商 在 其 数据 中 心 内 ， 通 过 可 用 区 域 实现 “虚拟 ”的 数据 中 心 ， 
使 得 这 些 虚拟 的 数据 中 心 依靠 各 自 独立 的 架构 ， 从 而 架构 故障 也 不 会 带 来 相互 的 影 
啊 。 如 图 3. 13 所 示 ， 两 个 假设 的 云 数据 中 心 站 点 (“北方 ”和 “南方 ”) ， 在 地 理 
位 置 上 远 隐 千 里 ， 这 样 诸如 地 震 这 样 的 灾难 事件 就 几乎 不 可 能 同时 影响 两 个 站 点 。 
而 在 每 个 数据 中 心 有 三 个 完全 独立 的 可 用 区 域 : 北 1 区, 北 2 区 ， 和 北 3 区 位 于 北 
方 数据 中 心 内 ， 与 南 1 区 ， 南 2 区 ， 和 南方 3 区 位 于 南方 数据 中 心 内 。 谨 慎 的 做 法 
是 每 个 分 区 的 数据 中 心 拥有 独立 的 物理 架构 和 管理 域 ， 以 确保 任何 基础 设施 故障 或 
管理 错误 造成 的 影响 仅 限 于 单个 分 区 ， 而 不 会 影响 大 规模 数据 中 心 的 所 有 用 户 。 每 
个 分 区 被 称 为 “可 用 区 域 ”。 例 如 ， 如 果 火 灾 发 生 在 数据 中 心 ， 则 紧急 断 电 
(EPO) 的 影响 应 该 仅 限于 某 个 单一 可 用 区 域 (希望 只 有 一 个 机 架 或 一 排 设备 在 这 
个 可 用 区 域内 ) 。 因 此 ， 协 同 可 用 区 域 可 以 有 效 的 减少 云 架构 故障 和 行政 失误 的 风 
险 ， 但 地 理 上 分 开 〈 如 分 区 ) 数据 中 心 则 可 以 减轻 地 震 等 不 可 抗力 事件 的 风险 。 


提供 商 错误 带 来 的 
风险 





图 3.13 空间 与 可 用 区 域 
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3.7 ZER 


只 部 署 一 个 应 用 程序 到 云 计 算 架 构 并 不 需要 “ 云 意识 ”。 开 放 数 据 中 心 联盟 
(ODCA) 框架 的 “ 云 意识 ”概念 如 下 : 

具有 云 意识 的 应 用 程序 的 设计 和 创建 都 只 为 了 唯一 的 目的 ， 那 就 是 部 署 在 云 环 
境 中 。 它 们 传承 了 传统 应 用 程序 的 特性 ， 同 时 能 够 充分 利用 云 计 算 的 先天 优势 。 
[ODCA_ClaaS | 

云 应 用 程序 若 不 具备 云 意识 则 被 称 为 是 传统 的 ， 由 ODCA 定义 如 下 : 

简单 地 说 ， 一 个 程序 或 系统 尚未 专门 设计 (或 修复 ) 具有 以 透明 地 利用 云 计 
算 的 独特 功能 。 相 反 ， 这 样 的 应 用 可 以 被 迁移 到 云 环 境 中 运行 ， 但 这 种 情况 下 实现 
会 受到 限制 。| ODEA_Claa | 

ODCA 提供 了 8 个 云 意 识 属性 [ODCA_ClaaS] [Freemantle] [ODCA_DCCA]。 
接 下 来 分 析 这 些 属性 的 面向 用 户 服 务 的 质量 隐患 : 

e 组合 :“ 应 用 程序 是 分 布 式 和 动态 连接 的 ”[ODCA_CIaas ] 。 分 布 式 功能 会 
引入 风险 ， 在 分 布 式 组 件 之 间 的 通信 故障 会 带 来 风险 ; 广 域 分 布 比 本 地 分 
布 带 来 的 风险 更 大 ， 例 如 通信 延迟 ， 丢 包 和 拌 动 。 组 合 性 进一步 增加 了 风 
险 ， 因 为 每 个 配置 操作 ， 例 如 重 定向 卫 包 或 分 布 式 组 件 之 间 的 服务 关系 ， 
都 存在 着 风险 ， 从 而 可 能 影响 用 户 服务 。 
弹性 : “负载 能 够 增 大 或 缩减 容量 的 能 力 。” [ ODCA_ClaaS]。 第 8 章 “ 容 
量 管理 ”中 具体 阐述 了 弹性 存在 的 服务 质量 风险 。 
演化 :“ 与 便携 性 相关 ， 能 够 根据 企业 和 市 场 需求 的 变化 ， 对 底层 技术 或 厂 
商 决策 做 出 建议 ， 并 对 业务 的 影响 最 小 。” [ODCA_CIaaS ] 。 所 有 信息 系统 
的 发 展 ， 都 是 从 技术 、 标 准 和 产品 发 布 一 代 到 一 代 演 化 ; 成 功 的 企业 必须 
学 会 通过 这 些 演化 周期 来 管理 他 们 的 系统 。 云 计算 加 速 了 ICT 系统 演变 的 
步伐 ， 例 如 持续 交付 和 DevOps ( 即 开 发 和 运营 之 间 的 合作 ) 可 能 会 鼓励 更 
快 的 采用 新 技术 ,一 旦 新 技术 可 用 。 云 计算 支持 技术 组 件 的 开发 和 应 用 等 
作为 服务 ， 这 使 得 供应 商 和 服务 提供 商 的 各 个 应 用 程序 组 件 能 够 独立 演化 ， 
而 云 计算 用 户 能 够 获取 灵活 方便 的 演化 路 径 。 应 用 程序 的 体系 结构 把 “一 
切 ” 作 为 服务 ， 通 过 相应 的 标准 接口 的 ， 能 够 比 单一 架构 更 容易 地 实现 演 
化 。 不 仅 是 流行 的 技术 组 件 提 供 作 为 一 种 服务 ， 大 规模 使 用 能 够 将 原 有 的 
缺陷 暴露 并 尽快 的 进行 修复 ， 但 这 些 组 件 都 支持 快速 弹性 。 新 的 应 用 程序 
可 以 通过 利用 现 有 的 PaaS 技术 组 件 ， 如 负载 均衡 ， 消 息 队 列 ， 数 据 库 管 理 
服务 器 等 加 快 产品 上 市 时 间 。 企 业 的 挑战 是 利用 足够 的 平台 服务 ， 以 缩短 
产品 上 市 时 间 ， 并 使 用 经 过 验证 的 组 件 ， 而 不 是 依靠 到 某 个 特定 的 云 服 务 
提供 商 平台 或 组 件 提高 服务 质量 。 
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e 可 扩展 :“ 应 用 程序 增 量 部 署 并 进行 测试 ”LODCA_CIaas j] 。 增 量 开 发 和 持 
续 交 付 导 致 比 传统 开发 模式 更 为 频繁 的 软件 版 本 变化 。 发 布 管理 的 服务 质 
量 风险 将 在 第 9 章 “ 发 布 管理 ”中 阐述 。 

。 粒度 计量 和 计 费 : 资源 定价 ， 包 括 计 量 和 计 费 的 粒度 ， 会 影响 云 用 户 对 空 
闲 在 线 应 用 程序 的 管理 和 在 流量 波动 、 故 障 事件 时 启用 备用 应 用 程序 的 能 
力 。 由 于 每 个 容量 管理 操作 都 存在 故障 的 风险 ， 较 少 的 容量 管理 操作 产生 
的 风险 较 低 ， 而 频繁 的 容量 管理 操作 则 风险 较 高 。 同 样 ， 保 持 多 一 些 空 
在 线 容量 比 仅 保持 最 低 在 线 容 量 风险 更 低 ， 尤 其 是 当 云 用 户 未 能 准确 预测 
实际 的 流量 增长 ， 出 现 资源 枯竭 或 弹性 增长 可 靠 性 降低 和 性 能 延迟 的 情况 。 

e 多 租户 :“ 多 个 云 用 户 可 使 用 的 云 服 务 提供 商 的 相同 资源 和 架构 ， 具 有 可 靠 
性 、 安 全 性 和 稳定 的 性 能 ” [ ODCA_ClaaS ] 。 共 享 的 云 架构 资源 所 市 来 的 
风险 将 在 第 4 章 “ 虚拟 化 架构 缺陷 ”中 阐述 。 

。 便携 性 :“ 应 用 程序 可 以 在 几乎 任何 地 方 ， 任 何 设备 ， 使 用 任何 云 服务 提供 
商 运行 。 | ODCA_CIaaS ] 。 软 件 的 可 移植 性 并 不 是 一 个 新 的 概念 ， 云 计算 
没有 实质 改变 与 应 用 程序 可 移植 性 相关 的 用 户 服 务 质量 的 风险 。 

。 目 助 服务 : 云 计算 依赖 于 自助 服务 ， 自 助 服 务 既 能 够 自动 降低 云 消费 者 的 
OPEX， 同 时 能 够 给 客户 更 好 服务 体验 ， 提 高 客户 满意 度 。 目 助 服务 很 可 能 
会 加 大 应 用 配置 更 改 的 速度 ， 因 为 ， 它 使 得 每 个 用 户 只 需 单 击 网 站 上 的 几 
个 按钮 ， 就 能 完成 相应 的 功能 ， 用 户 自行 调整 服务 体验 而 不 需要 通过 技术 
支持 帮助 或 其 他 传统 渠道 。 为 了 能 够 实现 频繁 的 配置 更 改 ， 自 助 服 务 界面 
必须 非常 强大 ， 因 为 用 户 难 免 会 在 尝试 自助 服务 的 更 改 时 出 现 错误 。 有 具有 
创造 性 和 好 奇 的 用 户 甚至 可 以 尝试 定制 一 些 看 似 奇 怪 的 服务 ， 以 便 更 好 地 
满足 其 独特 的 工作 风格 和 品位 。 因 此 ， 自 助 服务 意味 着 应 用 程序 的 配置 机 
制 必须 是 超级 健壮 的 ， 甚 至 可 以 对 一 些 错误 配置 实现 容错 ， 因 为 用 户 可 能 
无 意 或 故意 在 自助 服务 机 制 设置 时 出 现 错误 。 
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本 章 认为 基于 云 的 应 用 程序 在 虚拟 化 计算 资源 、 内 存 、 存 储 和 网 络 等 方面 受到 
面向 资源 服务 缺陷 的 影响 。 如 图 4. 1 所 示 ， 这 些 缺 陷 包括 : 













应 用 程序 虚拟 化 架构 面向 资源 
服务 的 缺陷 包括 : 

1.VM 故 障 

2. 无 法 交付 

3. 交 付 能 力 下降 

4. (超出 ) 尾部 迟延 

5. 时 钟 事件 抖动 

6. 时 钟 漂移 
7. 资 源 分 配 错误 


图 4.1 由 于 虚拟 化 架构 带 来 的 基于 云 应 用 程序 缺陷 


。 虚拟 机 故障 (第 4.2 节 ): 除了 云 用 户 的 明确 要 求 或 者 应 用 实例 本 和 喘 原因 
外 ， 一 个 虚拟 机 实例 可 能 因为 某 些 原因 终止 或 停止 运转 。 

无 法 交付 的 虚拟 机 配置 容量 (第 4.3 节 ) : 云 服务 提供 商 的 架构 平台 不 能 在 
某 些 时 期 给 一 个 虚拟 机 实例 任何 的 资源 (诸如 在 动态 迁移 的 时 候 ) ， 因 而 
使 得 运行 在 虚拟 机 实例 上 的 某 些 应 用 程序 组 件 一 直 做 无 用 工作 。 

交付 退化 的 虚拟 机 容量 (第 4.4 47): 云 服务 提供 商 的 架构 不 能 给 一 个 虚拟 
实例 配置 足够 的 计算 、 内 存 、 存 储 或 者 网 络 容量 来 充分 服务 于 应 用 程序 所 
承担 的 负载 ， 例 如 由 于 运行 在 相同 的 虚拟 机 服务 器 上 其 他 应 用 程序 虚拟 机 
实例 对 共享 架构 资源 竞争 和 排队 等 待 引 起 资源 紧缺 。 

尾部 延迟 (384.5 节 ) : 虚拟 机 监控 程序 以 及 为 提高 资源 共享 所 采用 的 各 种 
措施 ， 经 向 会 导致 访问 资源 的 延迟 比 访问 本 地 硬件 更 差 ， 这 种 情况 对 于 统 
计 上 处 于 “尾部 ”的 偶然 和 例外 尤其 明显 。 这 一 章 首先 讨论 了 服务 延迟 ， 
虚拟 化 和 云 计 算 。 

时 钟 事件 拌 动 (第 4.6 节 ): 严格 的 实时 应 用 程序 ， 如 事务 处 理 ， 交 互 视 
频 ， 往 往 依赖 于 一 致 的 时 钟 事件 来 最 小 化 在 应 用 程序 数据 包 传 输 给 最 终 用 
户 时 的 时 间 拌 动 。 拌 动 引起 的 延迟 ， 丢 失 或 者 合并 时 钟 中 断 事件 ， 可 以 直 
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接 影响 传输 到 最 终 用 户 的 服务 质量 。 


。 时 钟 漂移 (第 4.7 节 ) : 对 于 支持 应 用 程序 组 件 的 客户 操作 系统 实例 ， 其 实 


4. 1 


时 时 钟 可 能 会 由 于 虚拟 化 而 偏离 标准 时 间 。 

失败 或 缓慢 的 虚拟 机 实例 分 配 和 启动 (第 4.8 节 ): 偶尔 ， 云 服务 提供 商 可 
能 无 法 成 功 分 配 和 配置 一 个 虚拟 机 实例 并 迅速 启动 客户 操作 系统 和 应 用 
软件 。 


服务 延迟 、 虚 拟 化 和 云 


虚拟 化 和 云 所 带 来 的 额外 的 服务 延迟 风险 已 在 2.5.2 “ARS EGR” EAT T 
讨论 ; 4. 1. 1 节 介 绍 了 “虚拟 化 和 云 导致 的 延迟 变化 ”。4. 1.2 市 讨论 “虚拟 化 开 
销 ,”4. 1.3 节 介 绍 如 何 “ 增 加 架构 性 能 的 可 变性 ”。 


4.1.1 


虚拟 化 和 云 导致 的 延迟 变化 


虚拟 化 可 以 把 应 用 软件 和 底层 硬件 资源 解 耦 合 ， 并 且 有 助 于 资源 共享 。 然 而 ， 
更 大 的 资源 共享 带 来 更 大 的 资源 竞争 风险 ， 可 能 会 增加 应 用 程序 在 访问 共享 资源 的 
延迟 ， 例 如 CPU， 网 络 或 者 存储 ， 特 别 是 当 另 一 个 应 用 程序 也 在 激烈 地 竞争 资源 
的 情况 下 。 一 般 而 言 ， 虚 拟 化 延迟 风险 来 自 以 下 几 个 方面 : 

。 资源 利用 和 竞争 延迟 : 虚拟 化 和 云 计 算 的 首要 目标 是 增加 物理 资源 的 利用 


率 。 尽 管 传统 系统 对 资源 利用 问题 有 一 定 考虑 ， 但 虚拟 化 系统 加 剧 了 这 方 
面 的 问题 。 增 加 对 有 限 资源 的 使 用 本 质 上 意味 着 更 多 的 请 求 会 被 排队 ， 而 
不 是 能 够 同时 尽情 地 访问 可 用 资源 ， 尤 其 是 应 用 已 经 耗 尽 了 物理 资源 的 时 
修 。 任 何 资源 共享 增加 了 资源 竞争 风险 ， 这 就 需要 通过 典型 的 队列 序列 化 
形式 解决 ， 并 且 队 列 需 要 一 个 等 待 时 间 ， 因 此 自然 增加 了 延 运 。 人 和 仔细 调整 
排队 /调度 策略 是 必要 的 ， 可 以 确保 应 用 实例 可 以 及 时 访问 到 资源 ， 以 便 为 
用 户 提 供 可 接受 的 服务 延迟 。 更 先进 的 “架构 即 服务 〈IaaS) ”供应 商 对 于 
资源 共享 (包括 应 用 /负载 的 整合 或 “超额 订购 ”) 的 认识 是 : 资源 争 用 的 
风险 越 大 ， 资 源 访问 延迟 越 大 ， 其 至 会 导致 一 些 常 驻 应 用 过 载 。 

实时 通知 延迟 : 当 访 问 物理 资源 时 ， 如 计算 周期 ,磁盘 存储 ,或 者 网 络 ， 
可 能 在 时 间 上 是 随机 的 ,但 实时 时 钟 中 断 通知 本 质 上 是 同步 的 。 如 果 多 个 
应 用 实例 同时 请 求 相同 的 实时 时 钟 中 断 ， 执 行 会 被 序列 化 ， 因 此 也 就 存在 
不 确定 的 时 间 飘 移 。 如 果 应 用 程序 需要 周期 性 或 同步 的 实时 通知 ， 如 流 媒 
体 ， 那 么 任何 应 用 实例 的 执行 时 间 的 变化 可 能 导致 时 钟 拌 动 。 虽 然 虚拟 化 
应 用 程序 可 能 会 或 也 可 能 不 会 在 意 任 何 通知 抖动 ， 但 最 终 用 户 将 直接 体验 
这 种 抖动 ; 如 果 这 拌 动 足够 严重 ,那么 用 户 的 体验 质量 会 降低 。 时 钟 事件 
抖动 将 在 4.6 节 中 进一步 讨论 。 
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。 虚拟 化 和 模拟 开销 延迟 :由 应 用 软件 产生 的 系统 调用 可 能 需要 通过 虚拟 机 
管理 层 才能 访问 硬件 资源 ， 由 此 会 增加 某 些 延迟 。 除 了 简单 地 通过 VM 实 
例 代理 访问 物理 资源 ， 虚 拟 机 管理 器 会 模拟 物理 硬件 设备 ， 甚 至 处 理 器 和 
指令 集 ， 模 拟 越 复杂 ， 运 行 时 延 就 越 大 。 例 如 ， 模 拟 一 个 处 理 器 或 者 指令 
集 要 比 在 目标 虚拟 机 服务 器 本 地 执行 应 用 程序 指令 需要 更 多 的 执行 时 间 。 
值得 注意 的 是 ， 如 果 使 用 的 是 支持 虚拟 化 的 处 理 器 ， 并 且 虚 拟 机 监视 器 能 
够 完全 支持 硬件 虚拟 化 ， 虚 拟 化 开销 延迟 会 大 大 缩短 。 

o 分离 /分 解 资源 可 以 影响 一 些 优 化 :现代 计算 机 和 操作 系统 的 架构 已 经 进行 

了 复杂 的 性 能 优化 ， 如 先进 的 缓存 策略 。 当 存储 不 能 在 本 地 访问 到 处 理 器 

和 主 存 ， 额 外 的 网 络 延迟 会 损害 优化 效果 ， 因 为 优化 都 是 针对 本 地 大 容量 

存储 而 设计 的 。 类 似 的 ， 在 不 同 数 据 中 心中 的 两 个 虚拟 机 实例 之 间 进 行 通 

信 会 比 托管 于 本 地 同一 个 机 架 上 的 两 个 计算 刀片 之 间 的 通信 有 更 高 的 延迟 

(可 能 还 会 有 更 低 的 吞吐 率 ) 。 如 果 能 够 优化 关联 规则 并 且 云 服务 提供 商 能 

够 认真 履行 这 些 规则 ， 则 可 以 减少 影响 。 

CPU 中 断 响应 时 间 变 化 和 加 载 ， 由 于 CPU 变 得 越 来 越 繁忙 ,需要 更 长 的 时 

间 去 处 理 调度 业务 。 

动态 迁移 ; 执行 “动态 ”迁移 会 影响 虚拟 机 实例 的 操作 ， 因 为 “迁移 ”过 

程 会 导致 虚拟 机 服务 器 上 的 虚拟 机 实例 被 暂停 。 


4.1.2 虚拟 化 开销 


图 4. 2 展示 了 一 个 简单 应 用 程序 (一 个 开源 的 NoSQL[ NoSQL] 分 布 式 数据 
E) 分 别 部 署 在 采用 和 没有 采用 虚拟 化 技术 的 相同 配置 的 硬件 上 的 延迟 情况 。 从 
CCDF 可 以 得 出 以 下 两 点 结论 : 


10 个 事务 中 最 Ip 
慢 的 1 个 SS 
0.1 \ 
100 个 事务 中 \ 
最 慢 的 1 个 \ 本 地 的 非 庶 


0.01 \ 拟 化 延迟 





50 100 150 200 250 300 
响应 时 间 /ms 


图 4.2 Riak 基准 的 事务 延迟 
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。 虚拟 化 的 延迟 明显 要 比 本 地 没有 虚拟 化 的 延迟 大 很 多 。 

。 虚拟 化 的 延迟 尾部 远 比 本 地 没有 虚拟 化 的 严重 。 

作者 不 建议 将 用 于 测试 的 虚拟 化 平台 或 者 图 4. 2 中 涉及 的 应 用 程序 认为 是 有 典 
型 情况 。 底 层 虚 拟 化 技术 的 选择 、 物 理 资 源 架 构 以 及 云 服 务 提供 商 的 操作 策略 
(例如 ， 资 源 使 用 因素 和 调度 优先 级 ) 都 会 影响 实际 应 用 的 服务 延迟 。 用 户 的 目标 
应 用 不 可 避免 地 会 有 不 同 的 延迟 曲线 。 


4.1.3 增加 架构 性 能 的 可 变性 


传统 上 部 署 的 应 用 程序 一 般 会 公平 地 享有 计算 、 内 存 、 存 储 和 当地 的 网 络 
性 能 ， 因 为 一 旦 在 架构 建设 上 实例 化 应 用 软件 ， 很 少 会 有 配置 或 操作 的 变化 会 
严重 影响 应 用 程序 访问 底层 硬件 资源 。 相 反 的 ， 资 源 共 享 和 快速 弹性 的 基本 特 
征 驱 动 云 服 务 提供 商 更 积极 地 管理 他 们 的 虚拟 化 架构 来 最 大 化 利用 底层 物理 以 
构 资源 。 特 别 值得 一 提 的 是 ， 云 服务 提供 商 控制 虚拟 机 设置 ， 资 源 调 度 策略 ， 
VM 实例 的 迁移 ， 以 及 实时 调整 虚拟 机 实例 所 使 用 的 虚拟 化 资源 的 数量 和 质 
量 ， 常 驻 应 用 程序 的 VM 实例 一 般 被 独立 分 配 可 能 需要 的 共享 资源 。 服 务 提供 
商 的 操作 策略 和 体系 结构 将 决定 瞬时 资源 争 用 和 调度 问题 如 何 解决 ， 但 资源 共 
享 不 可 避免 地 会 耗费 一 段 时 间 ， 而 如 果 直 接 在 非 共享 本 地 硬件 上 部 署 应 用 程 
序 ， 则 不 存在 这 个 问题 。 

为 遵守 “ 反 关 联 规则 ”， 一 个 应 用 程序 的 虚拟 机 实例 可 能 被 放置 在 几 个 虚拟 机 
服务 器 上 ， 根 据 每 个 虚拟 机 服务 器 可 用 性 能 力 ， 单 个 VM 实例 可 能 被 放置 在 不 同 的 
CPU 核 上 。 随 着 在 每 个 虚拟 机 服务 器 上 运行 的 每 个 应 用 虚拟 机 实例 的 瞬时 负 蓓 的 
变化 ， 虚 拟 化 架构 资源 提供 给 每 一 个 应 用 虚拟 机 实例 的 瞬时 质量 以 及 容量 会 有 所 变 
化 ， 所 以 相 比 较 直 接 在 本 地 硬件 上 运行 ， 运 行 在 云 架 构 上 的 应 用 更 有 可 能 体验 到 否 
吐 量 的 变化 。 


4.2 虚拟 机 故障 


应 用 程序 通过 虚拟 机 实例 实现 IaaS 服务 。IaaS 服务 可 以 模拟 传统 应 用 组 件 执行 
的 服务 器 或 单 板 机 环境 。 虚 拟 化 是 一 个 复杂 的 软件 技术 ， 偶 尔 出 现 的 软件 故障 是 不 
可 避免 的 。 物 理 服 务 器 的 故障 会 导致 虚拟 机 实例 的 最 终 故 障 。 虚 拟 机 故障 是 指导 致 
虚拟 机 实例 终止 正常 运转 的 情况 ， 但 不 包括 以 下 正常 终止 的 情况 : 

1) 云 用 户 明确 要 求 终止 〈 例 如 ， 通 过 上 自助 服务 GU 提出 请 求 ) ; 

2) 应 用 实例 本 身 提出 的 明确 的 “关机 ”请 求 ; 

3) 由 于 预定 义 的 策略 原因 而 由 laas 提供 商 明 确 提出 的 终止 请 求 ， 如 账单 
拒 付 。 

任何 终止 虚拟 机 的 行为 如 果 不 是 源 于 云 计算 用 户 、 应 用 本 刁 ， 或 预定 义 的 策 
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略 ， 则 被 认为 是 一 个 虚拟 机 故障 ， 包 括 : 

© 为 方便 Iaas 提供 商 〈 而 不 是 云 消费 者 ) 而 将 虚拟 机 终止 ; 

© 托管 虚拟 机 实例 的 虚拟 机 服务 器 硬件 故障 ; 

© 托管 虚拟 机 实例 的 虚拟 机 监视 器 或 主机 操作 系统 故障 (例如 出 现 内 核 裔 
溃 ) ; 

。 硬件 维护 错误 导致 驻 留 虚拟 机 故障 ; 

。 电源 故障 。 

图 4.3 展示 了 一 个 简单 的 虚拟 机 故障 的 示例 。 该 示例 涉及 第 二 章 所 提 到 的 简单 
MH, 故障 原因 是 其 中 一 个 虚拟 机 实例 的 应 用 组 件 故 障 。 如 果 需 要 提供 高 级 服务 质 
E, 那么 必须 明确 哪些 虚拟 机 故障 是 与 服务 质量 相关 的 ?等 待 的 用 户 操 作 是 被 延迟 
了 还 是 完成 取消 了 ? 有 没有 任何 状态 信息 丢失 ? 


一 个 VM 实例 运行 了 应 用 程序 的 后 端 组 件 
一 旦 出 现 故 障 会 对 面向 用 户 服务 造成 什么 影响 ? 


应 用 





架构 即 服务 
图 4.3 ”虚拟 机 故障 缺陷 示例 
故障 的 测量 将 在 14. 3. 1 节 “ 虚 拟 机 故障 度量 ”中 进行 讨论 。 


43 ”无 法 交付 的 虚拟 机 配置 容量 


虚拟 机 监视 器 负责 在 虚拟 机 之 间 提供 时 间 上 的 隔离 ， 也 就 是 说 , “多 个 虚拟 机 
的 行为 在 时 间 上 相互 隔离 (或 限制 时 间 上 的 相互 干扰 ) ， 尽 管 它们 在 相同 的 物理 主 
机 上 运行 ， 共 享 同一 物理 资源 ， 例 如 处 理 器 、 内 存 和 磁盘 ” [ Wikipedia- TI] 。 然 
而 ， 还 是 可 能 出 现在 一 段 时 间 内 ， 由 于 动态 迁移 、 资 源 共享 和 竞争 、 在 调度 队列 中 
等 待 时 间 片 ， 或 其 他 一 些 原因 ， 一 个 特定 的 虚拟 机 实例 可 能 被 拒绝 访问 虚拟 计算 次 
源 、 内 存 、 存 储 或 是 网 络 。 这 种 问题 被 视 为 虚拟 机 “死机 ”或 “停顿 ”或 持续 处 
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理 能 力 的 丧失 。 图 4. 4 给 出 了 一 个 简单 可 视 化 的 类 似 问 题 的 场景 : 虚拟 机 监控 颖 屏 
闭 了 一 个 特定 虚拟 机 在 指定 时 间 Thowsoiwew 对 一 个 或 多 个 资源 的 访问 。 显 然 ， 当 一 个 
虚拟 机 实例 暂时 被 拒绝 访问 所 需 的 资源 (例如 ， 在 动态 迁移 过 程 中 ) ， 应 用 服务 将 
受到 影响 ， 因 为 在 Thowaaiveny 期 间 虚 拟 机 实例 中 的 应 用 程序 组 件 无 法 正常 执行 相关 
LiFo 


某 一 时 刻 TNondelivery 
至 少 有 一 个 资源 完 
全 无 法 获取 





图 4.4 简化 的 无 法 交付 VM 容量 模型 


这 种 “无 法 交付 的 虚拟 机 配置 容量 ”的 问题 在 虚拟 机 动态 迁移 的 育 景 下 很 容 
易 理 解 。 当 一 个 运行 中 (也 称 “ 活 动 的 ") 的 虚拟 机 实例 迁移 到 为 一 个 主机 时 ， 动 
态 迁 移 期 间 会 经 历 此 类 问题 。 从 技术 上 讲 ， 虚 拟 机 实例 在 源 主机 HOSTs。.。 上 运行 
直到 达到 暂停 时 间 Tb, ， 此 时 动态 状态 信息 和 控制 都 被 转移 到 目的 主机 Hostpesination 
上 ， 然 后 目的 主机 HOSTneuuam 激 活 虚 拟 机 实例 ， 以 使 其 能 够 在 Then。 时 刻 继续 执 
行 。TNuusies 也 就 是 True 和 Tacome 之 间 消 耗 的 时 间 ， 如 图 4. 5 所 示 。 由 于 拥塞 或 其 
他 原因 ， 此 类 “ 宕 机 ”或 “停顿 ”事件 也 会 发 生 。 值 得 注意 的 是 ， 此 类 事件 (如 
虚拟 机 中 的 “ 宕 机 ”) 也 会 导致 虚拟 机 实例 的 时 间 扭 曲 ,， 虚拟 机 实例 的 实时 时 钟 淋 
移 问 题 将 在 4.7 节 “ 时 钟 漂移 ”中 讨论 。 


"y me 


Ma 2 . fs d 
: $ > aan B n S 
cet ee poe 
Rieter vaas Stun 
. id 2 r, of 入 





假设 VM 实例 于 f es TNondelivery = TResume — 7 Pause 
TResume 时 刻 在 yy yy aa 
HOST Destination 





图 4.5 虚拟 机 无 法 交付 
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图 4.6 诠释 了 这 种 故障 的 表现 ， 虚 拟 机 实例 中 的 一 个 应 用 程序 的 后 端 组 件 
“生机 ”了 数 百 毫 秒 。 终 端 用 户 体验 的 服务 是 否 因此 慢 了 许多 ?” 用 户 服务 是 否 被 挂 
起 ? 或 是 在 面 回 用 户 服务 边界 对 用 户 产生 可 见 的 影响 ? 











例如 VM 托 管 的 一 个 应 用 程序 后 端 组 件 延 时 了 数 百 毫秒 或 更 长 时 间 ... 





ELTA, 
am i 






am a 
— 云 服 务 
.,. 那 么 面向 用 户 的 服务 质量 提供 商 


例如 服务 延 时 , 服务 可 靠 性 ， 
会 受到 怎样 的 影响 ? 


图 4.6 无 法 交付 缺陷 示例 


对 这 些 问 题 的 测量 将 在 14. 3. 2 节 “ 无 法 交付 的 虚拟 机 配置 容量 度量 ”中 进行 
i 


4.4 交付 退化 的 虚拟 机 容量 


资源 共享 是 云 计算 的 一 个 基本 特征 Ias 服务 提供 商 依赖 于 虚拟 机 管理 器 等 
机 制 来 实现 对 资源 访问 、 共 享 和 竞争 的 各 种 策略 。 图 4. 7 给 出 了 一 个 交付 退化 的 
虚拟 机 容量 简单 而 又 形象 的 场景 : 由 于 一 个 或 多 个 在 其 他 虚拟 机 实例 中 运行 的 应 
用 对 共享 存储 资源 的 巨大 需求 ， 导 致 虚拟 机 监视 器 只 能 传输 与 日 党 相 比 少 得 多 的 
存储 带宽 ， 从 而 引起 虚拟 机 实例 中 的 特定 应 用 所 需要 的 存储 带宽 被 严格 限制 了 一 
BERTIE] Towwwses。 当 应 用 提出 的 资源 请 求 接近 或 超出 共享 架构 的 物理 负载 能 力 时 ， 
一 些 请 求 会 被 拒绝 (或 者 被 排队 ) ， 其 他 会 被 进行 流量 控制 〈 例 如 对 带宽 /速率 
的 限制 ) 。 

图 4.8 显示 了 一 个 退化 的 虚拟 机 交付 容量 时 间 表 : 能 够 提供 给 虚拟 机 实例 的 资 
源 容 量 Cneussu 会 被 减少 Tbeua 时 间 。 另 一 个 容量 退化 的 例子 是 对 CPU 频率 的 调整 。 
当 应 用 较 少 时 ， 为 了 降低 功 耗 ， 虚 拟 机 服务 器 的 CPU 频率 会 降低 。 这 会 增加 处 理 
请 求 的 延迟 ， 因 为 CPU 低速 运行 ， 会 花费 较 多 的 时 间 来 处 理 各 种 请 求 。 这 会 产生 
一 个 矛盾 的 结果 ， 即 在 系统 几乎 处 理 空闲 状态 时 ， 却 有 较 高 的 延迟 。 由 于 低 效 的 磁 
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图 4.7 虚拟 机 交付 退化 模型 示例 


盘 空 间 分 配 或 分 配 资源 不 足 ， 系 统 可 能 会 经 历 一 段 时 间 的 磁盘 资源 退化 ， 从 而 导致 
出 现 系 统 性 能 问题 或 故障 。 如 果 拥 塞 会 导致 架构 丢弃 IP 包 ， 这 会 触发 重 传 机 制 ， 
系统 也 就 会 经 历 更 长 的 网 络 延 迟 。 其 他 一 些 引 起 资源 退化 问题 的 原因 ， 包 括 效率 低 
下 的 调度 算法 、 中 断 的 聚 结 ， 以 及 与 时 钟 抖动 相关 的 一 些 事 件 ， 这 些 问 题 都 会 阻止 
给 虚拟 机 提供 足够 的 资源 来 满足 容量 需求 。 


在 某 些 时 间 ， 管 理 程序 不 能 发 交付 


已 设计 | 足够 的 资源 容量 来 满足 应 用 程序 瞬 
(已 配置 ) 93; | 。 时 的 工作 负载 ， 例 如 当 其 他 的 VM 
wa eV O a a oe & 争 有 限 的 共享 资源 时 如 磁盘 1/O 


eee ee ee ee 
eee eS eee eee eee ee 
tet ae Ae OM 


带宽 
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让 eae ictal emer 
* vs X: ay 7% oes 
z S 
Biles 区 A RERS SA An AA d 退 化 交付 由 两 个 参数 描述 
z PIE = z 
工作 负载 yt 
4 
of 


Tocaraded 
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在 Tagraded 时 间 的 退化 是 指 管理 程序 不 
能 交付 资源 容量 来 满足 应 用 程序 提供 
的 工作 负载 


时 间 
容量 退化 是 在 容量 退化 时 间 内 不 可 用 
的 VM 实例 受 影响 的 设计 容量 “Cagraged” 
平均 百分比 





图 4.8 资源 容量 退化 模型 


图 4. 9 展示 了 一 个 场景 ， 在 该 场景 中 ， 虚 拟 机 中 的 一 个 应 用 后 台 组 件 由 于 其 他 
虚拟 机 实验 的 竞争 导致 其 只 能 提供 退化 的 网 络 服务 容量 〈 例 如 出 现 IP REF) 。 
如 果 每 百 万 IP 数据 包 在 到 达 后 台 组 件 之 前 有 几 十 或 几 百 个 被 丢弃 ， 那 么 应 用 客户 
将 会 面临 暇 样 的 服务 质量 ? 

在 14. 3.3 节 “ 交 付 退 化 的 虚拟 机 容量 度量 ”将 介绍 这 一 缺陷 的 度量 。 
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如 果 一 个 后 端 组 件 实例 的 资源 访问 能 力 下 降 ， 例 如 IP 数 据 已 
丢失 率 提高 ， 会 对 应 用 程序 的 面向 用 户 服务 产生 什么 影响 ? 






Fa G 


Vaz, 


架构 即 服务 
图 4.9 交付 退化 缺陷 示例 


服务 延迟 基准 (指数 CCDF ) 
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4. 10 三 种 不 同 托管 配置 的 CCDF 坐标 Riak-read 基准 


4.5 尾部 延迟 


正如 在 4.1 节 “服务 延迟 、 虚 拟 化 和 云 计 算 ” 中 所 讨论 的 ， 虚 拟 机 管理 仑 和 
增加 的 资源 共享 往往 导致 资源 访问 延迟 要 比 访问 本 地 硬件 差 很 多 ， 特 别 是 在 出 现 意 
外 情况 时 更 是 如 此 。CCDF 表明 ， 本 地 产生 的 尾部 延迟 非常 接近 典型 的 读 延 迟 基准 
值 ， 相 同 配置 情况 下 虚拟 化 会 明显 增加 延迟 ， 大 约 每 十 万 中 会 出 现 几 个 特别 长 的 延 
迟 ， 而 且 云 模式 会 导致 更 明显 的 尾部 延迟 ， 至 少 每 一 千 中 会 出 现 几 个 。 

图 4. 11 表明 这 会 是 几 千 个 后 台 请 求 中 最 慢 的 一 个 ， 可 能 会 比 每 十 个 操作 中 出 
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现 的 最 慢 的 一 个 还 要 慢 20 倍 。 接 下 来 的 问题 也 就 来 了 ， 由 此 产生 的 时 延 、 可 靠 性 ， 
以 及 交付 给 用 户 的 服务 质量 都 会 是 怎么 样 ? 





图 4.11 尾部 延迟 缺陷 示例 


对 此 类 问题 的 回答 将 在 14.3.4 节 “ 拖 尾 延 迟 度量 ” 中 进行 阐述 。 
4.6 ”时钟 事件 抖动 


严格 的 实时 应 用 程序 ， 如 事务 性 处 理 、 互 动 视频 ， 往 往 依赖 于 连续 的 时 钟 事件 
以 减少 在 应 用 数据 包 传 递 到 终端 用 户 过 程 中 的 抖动 。 由 延迟 或 合并 时 钟 中 断 事件 引 
和 的 抖动 会 直接 影响 到 交付 给 最 终 用 户 的 服务 质量 。 虚 拟 化 和 云 相 关 的 管理 开销 等 
因素 导致 的 时 钟 拌 动 问题 比 本 地 时 钟 拌 动 问题 要 严重 得 多 。 图 4.12 给 出 了 CCDF 
测试 结果 ， 结 果 显 示 出 在 数 以 亿 计 的 lms 时 钟 事件 中 时 钟 拌 动 发 生 的 情况 。 

这 种 缺陷 在 电视 电话 会 议 的 桥接 环境 中 很 容易 理解 ， 通 过 桥接 来 保证 来 日 多 个 
终端 用 户 的 实时 流 媒体 能 够 无 缝 地 使 用 音频 /视频 会 议 。 如 图 4. 13 所 示 ， 每 个 用 户 
的 设备 发 送 流 媒体 (例如 RTP) 到 会 议 桥 接 器 ， 在 每 一 个 计时 器 中 断 期 间 ， 会 议 
桥接 器 会 将 每 个 参与 者 设备 发 送 的 多 个 流 合并 为 单一 流 ， 然 后 发 送 回 给 所 有 的 参与 
者 。 如 果 会 议 桥 接 希 的 一 个 时 钟 事件 延迟 了 ， 那 么 会 议 桥接 天 无 法 传输 一 个 连续 的 
同步 流 媒 体 到 终端 用 户 设 备 ， 而 且 由 于 数据 包 到 达 太 晚 以 至 于 不 能 顺利 让 用 户 设 备 
启动 包 丢 失 补 偿 机 制 ( 例 如 ， 重 放 过 时 的 数据 包 和 冻结 视频 图 像 )， 这 个 补偿 机 制 
可 以 最 小 化 对 用 户 服务 质量 的 影响 。 
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对 活跃 的 NFV 应 用 的 定时 测量 (目标 lms) 
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时 钟 事件 抖动 将 抖动 加 到 流 
‘te en 数据 (音频 /视频 ) 之 上 。 过 

桥 多 的 时 钟 事件 拌 动 会 导致 承 
载 数据 被 会 议 桥 丢 弃 或 者 由 
于 到 达 终 端 用 户 设备 过 迟 而 
重 发 导致 被 用 户 设备 丢弃 。 





图 4.13 时 钟 事 件 抖 动 缺陷 示例 


4.7 HARE 


世界 时 间 (UTC) 是 时 钟 精确 度 测量 的 标准 参考 时 间 。 主 机 电脑 定期 将 其 本 地 
时 钟 通过 网 络 时 间 协 议 (NTP, RFC 5905) 或 精确 时 间 协 议 (PTP, IEEE 1588) 
与 一 个 已 知 的 精确 的 参考 时 钟 进行 同步 (通常 同步 到 NIST. gov, GPS 等 ) 。 应 用 程 
序 组 件 通常 依赖 于 底层 客户 操作 系统 来 为 用 户 的 时 间 惟 事件 提供 准确 的 时 钟 。 通 过 
虚拟 化 和 动态 迁移 解 耦 底层 硬件 和 用 户 操 作 系 统 ， 可 以 在 硬件 主机 之 间 顺 利 地 迁移 
应 用 程序 和 用 户 操作 系统 ， 但 额外 的 时 钟 漂移 (时 钟 错 误 ) 将 给 部 署 到 云端 的 应 
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用 程序 带 来 风险 。 虽 然 这 种 漂移 不 太 可 能 很 大 (例如 ， 几 秒 钟 或 几 分 钟 ), 但 有 些 
应 用 程序 对 哪怕 是 很 小 的 时 钟 漂移 (例如 ， 微 秒 或 毫秒 ) 都 很 敏感 。 

图 4. 14 展示 了 一 个 案例 ， 应 用 程序 的 后 台 组 件 实例 的 实时 时 钟 偏离 UTC JL 
秒 ， 其 中 一 个 后 台 实 例 比 UTC 快 一 点 ， 另 一 个 则 慢 一 点 。 这 个 时 钟 漂移 意味 着 一 
些 后 台 组 件 实例 的 请 求 将 打上 错误 的 时 间 截 ， 所 以 重建 的 序列 也 是 乱 序 的 。 

如 果 某 个 后 端 组 件 实例 的 实时 时 钟 比 


UTC 快 了 几 十 毫秒 ， 那 么 应 用 程序 的 
故障 关联 ， 执 行 标准 ， 计 费 程序 或 用 

















… 如 果 与 此 同时 ， 另 一 个 后 端 组 件 
实例 的 实时 时 钟 比 UTC 慢 了 几 十 毫 
秒 又 会 怎样 ? 


Sette ore or 


图 4.14 时 钟 漂移 缺陷 示例 


对 这 一 问题 影响 程度 的 测量 将 在 14. 3.6 节 “ 时 钟 漂移 度量 ”中 进行 讨论 。 
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虚拟 机 的 分 配 、 配 置 ， 以 及 应 用 组 件 实例 的 启动 是 非常 重要 的 事情 ， 特 别 是 对 
于 越 来 越 多 的 应 用 、 越 来 越 大 的 在 线 容 量 和 软件 版 本 发 布 管理 尤其 如 此 。 在 被 虚拟 
机 实例 分 配 的 在 客户 操作 系统 和 应 用 软件 局 动 之 后 ， 接 下 来 是 分 配 和 配置 一 个 虚拟 
机 实例 ， 这 是 一 个 复杂 的 ， 多 步骤 的 过 程 ， 受 到 许多 风险 的 影响 ， 可 能 导致 操作 直 
接 失败 或 速度 太 慢 ， 以 致 元 法 在 最 大 限度 的 可 接受 时 间 内 完成 。 虚 拟 机 实例 的 启动 
以 及 分 配 过 程 的 失败 或 变 慢 ， 其 市 来 的 影响 会 在 第 8 草 “ 容 量 管理 ”中 进行 讨论 。 
对 不 利 影响 的 测试 将 在 第 14. 3.7 节 “ 失 败 或 缓慢 的 虚拟 机 实例 分 配 和 局 动 度 量 - 
中 讨论 。 


4.9 虚拟 化 架构 缺陷 展望 


随 着 虚拟 化 和 云 计算 的 普及 和 发 展 ， 架 构 硬 件 和 软件 供应 商 将 专注 于 改善 他 们 
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的 虚拟 化 架构 产品 的 性 能 。 这 些 改进 将 伴随 着 摩尔 定律 ， 使 提供 给 应 用 虚拟 机 实例 
的 虚拟 化 的 计算 资源 ， 内 存 资源 ， 存 储 资源 和 网 络 资源 的 质量 和 一 致 性 不 断 提 高 。 
从 长 远 来 看 ， 至 少 这 些 架构 中 存在 的 一 部 分 问题 在 发 生 的 频率 和 严重 程度 方面 应 大 
幅 降 低 ， 但 正如 约翰 梅 纳 德 . 凯恩斯 在 1927 年 写 道 : 

“对 未 来 的 展望 是 对 当前 事务 的 误导 ， 就 像 从 长 远 来 看 ， 我 们 都 会 死 。 经 济 学 
家 和 工程 师 给 自己 设立 太 容 易 ， 太 无 用 的 任务 ， 但 如 果 在 暴雨 的 季节 ， 专 家 只 能 告 
诉 我 们 ， 当 暴风 十 过 去 海洋 便 又 会 恢复 平静 ， 这 种 展望 和 预测 又 太 容 易 、 太 无 用 
J.” [Keynes] 

因此 ， 本 书 第 卫 部 分 分 析 和 讨论 这 些 虚拟 化 架构 缺陷 是 如 何在 中 短期 对 应 用 产 
生 不 利 影响 ， 第 亚 部 分 是 针对 虚拟 化 架构 存在 的 缺陷 ， 对 如 何 降低 应 用 服务 的 风险 
提出 了 一 些 建议 。 





本 书 的 这 一 部 分 分 析 了 基于 云 的 应 用 程序 提供 的 面向 用 户 服务 质量 由 云 部 
署 带 来 的 的 优势 和 风险 的 影响 。 
e 第 5 章 “ 应 用 程序 宛 余 和 云 计算 ”， 回 顾 了 基本 的 宛 余 架 构 (HBR 
构 ， 顺 序 宛 余 ， 并 发 宛 余 和 混合 并 发 宛 余 ) ， 以 及 当面 对 虚拟 化 架构 缺 
陷 时 ， 如 何 减 轻 对 应 用 服务 质量 的 影响 。 
e 第 6 章 “ 负 载 分 配 与 均衡 " ， 系 统 地 分 析 应 用 程序 的 工作 负载 分 配 和 


均衡 。 

e 第 7 章 “ 故 障 容器 ”， 主要 阐述 虚拟 化 和 云 计算 如 何 影响 应 用 程序 的 故 
障 处 理 机 制 。 

e 第 8 章 “容量 管理 ”， 系 统 地 分 析 应 用 服务 与 弹性 在 线 容 量 增长 和 逆 增 
长 相关 的 风险 。 


e 第 9 章 “ 发 布 管理 ”， 考 虑 虚拟 化 和 云 计 算 如 何 影响 发 布 管理 操作 ， 对 
应 用 软件 实现 补丁 、 更 新 、 升 级 和 改造 。 

e 第 10 章 “ 端 到 端 考虑 因素 ”， 说 明了 应 用 服务 质量 缺陷 是 如 何 通过 服务 
交付 路 径 积 累 的 。 本 章 涉 及 应 用 程序 部 署 到 较 小 的 云 数据 中 心 的 服务 质 
量 ， 较 小 的 云 数据 中 心 相 比 更 大 的 、 区 域 的 云 数据 中 心 更 接近 最 终 用 
户 ， 区 域 的 云 数 据 中 心 离 最 终 用 户 比 较 远 。 对 灾难 恢复 和 地 理 宛 余 也 进 
行 了 讨论 。 


Set 应 用 程序 元 余 和 云 计 算 


采用 组 件 宛 余部 署 的 方法 可 以 减轻 不 可 避免 的 缺陷 问题 对 服务 造成 的 影响 。 本 
章 主要 讨论 非 元 余 (简单 )、 传 统 ( 顺 序 ) 宛 余 和 非 传 统 (并 发 ) 宛 余 架 构 是 如 
何 减 少 虚拟 化 架构 缺陷 对 应 用 服务 的 影响 。5. 2 节 解 释 了 虚拟 化 技术 是 如 何 改进 软 
件 恢复 时 间 ，5. 3 节 解 释 了 虚拟 化 和 云 如 何 改 进 架构 恢复 时 间 。5. 4 节 解 释 了 宛 余 
架构 是 如 何 快速 将 服务 恢复 到 宛 余 组 件 而 不 是 对 故障 组 件 进行 修复 后 再 继续 使 用 ， 
从 而 提高 服务 的 可 用 性 。5. 5 节 对 顺序 元 余 和 并 发 元 余 进行 了 对 比 。5. 6 节 从 技术 
上 讲解 了 非 宛 余 、 上 顺序 元 余 、 并 发 元 余 以 及 混合 并 发 元 余 架 构 中 ， 虚 拟 化 架构 缺陷 
对 应 用 服务 的 影响 。5. 7 节 讨 论 了 在 元 余 架 构 中 数据 的 角色 。5. 8 节 从 总 体 角 度 阐 
iB ST MICRA TE 
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故障 是 不 可 避免 的 ， 因 此 应 用 必须 对 组 件 故障 问题 做 好 应 对 准备 。 分 布 式 系统 
容易 受到 突 发 事件 的 影响 ， 如 丢弃 IP 数据 包 ， 也 会 遇 到 更 多 的 持续 性 故障 ， 如 软 
件 进程 月 溃 (参见 16.4.3 节 “ 健 壮 性 测试 ”中 的 常见 故障 情况 列表 ) 。 考 虑 如 图 
5. 1 所 示 的 简单 的 分 布 式 系统 ， 由 一 个 客 
户 端 应 用 “A” 与 服务 器 “Bl1” 进 行 交 互 。 





这 种 传统 的 简单 系统 通常 只 允许 一 个 且 只 apa 
有 一 个 应 用 实例 〈 例 如 “B1”) 为 任何 特 将 服务 "提供 给 客户 
定 用 户 实例 (例如 “A”) 服务 。 因 此 ， 当 图 5. 1 简单 分 布 式 系统 


一 个 应 用 组 件 “Bl1”( 见 图 5.1) 失效 ， 服 
务 器 中 所 有 的 状态 和 易 失 性 信息 会 丢失 ， 同 时 丢失 的 还 有 所 有 网 络 上 下 文 〈( 例 如 
与 客户 端 设备 的 会 话 ) 。 值 得 注意 的 是 ,持久 性 存储 中 保存 的 信息 会 保持 不 变 ， 因 
为 这 是 “持久 性 存储 ”的 特点 。 

图 5. 2 所 示 是 一 个 简单 系统 的 服务 可 用 性 时 间 表 ， 在 该 系统 中 服务 器 “ 
一 直 处 于 启动 态 〈 可 为 客户 端 “A” 提 供 服 务 ) ， 直 到 服务 器 “B1” 失 效 peel 
平均 故障 间隔 时 间 ， 即 MTBF ) ， 然 后 服务 咒 宕 机 ， 直 到 故障 被 修复 ， 服 务 被 恢复 
(所 谓 的 平均 恢复 时 间 ， 即 MTRS), MTRS 有 时 被 称 为 可 维护 性 。 

正如 在 2.5.1 节 “ 服 务 可 用 性 ”中 所 阐述 的 ， 可 用 性 是 服务 运行 总 时 间 的 一 
部 分 。 对 于 简单 系统 ， 可 以 通过 式 (5. 1) 计算 服务 可 用 性 : 
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让 第 运 行 时 间 


故障 还 原 故障 还 原 








MTBF MTBS 


5.2 简单 服务 可 用 性 


p- MBF 

可 用 性 = MTBF + MTRS 

注意 ， 对 于 简单 系统 ， 平 均 修复 时 间 (MTIR) 通常 等 于 MTRS， 因 而 式 
(5.1) 的 简单 可 用 性 公式 等 同 于 大 多 数 读者 都 熟悉 的 传统 可 用 性 计算 式 (5.2) 。 


MTBF 
"TNIE = MTBF + MTIR ey 


可 维护 性 是 描述 一 个 配置 项 能 够 达到 多 快速 和 有 效 的 程度 ,或 开 领域 中 指 服 
务 器 从 服务 失效 后 到 恢复 到 正常 工作 状态 的 时 间 ， 通 常 作为 MTRS。 可 维护 性 对 于 
一 个 简单 系统 包括 三 个 步 又: 

1) 故障 检测 。 自 动 故障 检测 通常 是 指 连 续 性 检测 〈 一 般 为 分 钟 级 或 秒 级 ) ， 
但 是 如 果 系 统 依赖 于 手动 故障 检测 〈 例 如 需要 终端 用 户 通 过 客户 支持 系统 根据 处 
理 流 程 报告 故障 ) ， 那 么 应 用 服务 提供 商 的 维护 工程 师 就 有 可 能 花 几 十 分 钟 或 更 长 
时 间 才 能 正确 地 定位 哪 一 个 组 件 实例 的 故障 导致 了 用 户 服务 的 中 断 。 在 实际 操作 
中 ,客户 “A” 的 故障 被 分 为 两 类 : 

a. 显 式 故障 。 显 式 故 障 是 有 明确 信号 发 送 到 客户 端 “A”， 通常 通过 错误 响应 
机 制 来 实现 ， 例 如 给 出 提示 “500 服务 器 内 部 错误 ”。 在 收 到 明确 故障 提示 的 情况 
下 ， 客 户 明确 知道 服务 器 目前 无 法 圆满 地 服务 客户 的 请 求 ， 所 以 客户 端 “A” 必 须 
通告 故障 情况 (例如 ， 返 回 故障 提示 给 最 终 用 户 )， 同 时 维修 工程 师 必须 解决 服务 
化 “B1” 出 现 的 故障 。 

b. 隐 式 故障 。 隐 式 故 障 是 指 请 求 因为 没有 在 一 个 合理 的 时 间 内 收 到 响应 ， 客 
户 端 “A” 由 此 推断 该 请 求 失败 。 

2) 故障 排除 。 排 除 故障 必须 要 识别 定位 故障 组 件 ， 然 后 确定 为 恢复 服务 必须 
采取 修复 措施 。 对 故障 原因 的 诊断 、 定 位 通常 会 部 分 依靠 人 工 ， 因 此 可 能 需要 
时 间 。 

3) 修复 故障 单元 和 恢复 服务 。 修 复 操作 (例如 重新 启动 应 用 程序 ， 重 新 启 
动 系统 ， 更 换 改 障 硬件 ， 重 新 安装 软件 :备份 和 恢复 数据 ) 可 能 需要 几 分 钟 至 
几 小 时 ， 而 如 果 所 需要 备件 或 备份 的 介质 不 在 故障 发 生地 ， 那 将 需要 更 长 时 间 。 
因为 传统 的 简单 系统 的 恢复 服务 需要 人 工 参 与 ， 时 间 可 能 会 进一步 延长 ， 因 为 需 
要 时 间 通 知 和 调配 有 经 验 的 员工 ， 员 工 从 异地 赶 过 来 需要 时 间 ， 硬 件 的 替换 也 需 
要 时 间 。 


(Sk) 
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对 于 简单 系统 ， 直 到 完成 所 有 这 三 个 任务 ， 用 户 的 服务 才能 恢复 到 可 用 状态 。 
总 的 来 说 , 对 于 简单 〈 非 元 余 ) 系统 ， 宕 机 时 间 通 常会 数 小 时 甚至 更 长 时 间 。 提 高 
可 维护 性 ， 缩 短 MTRS， 才 能 提高 服务 可 用 性 。 图 5. 3 通过 MTRS 函数 展示 了 服务 
可 用 性 ， 其 中 给 式 (5.1) 设 定 了 一 个 恒定 的 故障 率 。 


停机 时 间 的 MTRS 承 受 
(MTBF=10000 小 时 ) 


99.99%6 可 用 
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ae ee i ni 了 服务 可 用 性 
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恢复 服务 的 平均 时 间 / 小 时 


图 5.3 服务 可 用 性 对 MTRS (对 数 尺 度 ) 的 敏感 性 


5.2 通过 虚拟 化 改进 软件 修复 时 间 
传统 部 署 简单 应 用 组 件 出 现 的 软件 故障 通常 可 以 通过 以 下 两 种 方式 进行 修复 : 


1) 应 用 软件 重新 启动 。 传统 修复 选项 修复 延迟 种 类 虚拟 化 修复 选项 
2) 操作 系统 重新 启动 。 小 时 
通常 的 软件 修复 是 指 重新 
将 软件 恢复 到 可 执行 状态 ， 而 
不 是 纠正 真正 导致 故障 发 生 的 操作 系统 重启 | YM 看 局 
根源 。 解 决 软件 故障 的 根本 方 
法 一 般 需 要 安装 软件 补丁 ， 只 启用 程序 重启 = 
有 补丁 才能 够 解决 软件 内 在 
缺陷 。 秒 
如 图 5.4 所 示 ， 虚 拟 化 提 图 5.4 传统 的 与 虚拟 化 的 软件 修复 时 间 对 比 
供 了 几 种 新 的 软件 故障 修复 选 


择 。 按 从 最 慢 到 最 快 ， 虚 拟 化 修复 方法 如 下 : 
。 虚拟 机 (VM) EE: 通过 虚拟 机 硬 启动 方式 将 虚拟 机 由 关闭 态 转 到 运行 
态 ， 这 一 过 程 通常 不 需要 对 虚拟 资源 回收 和 再 分 配 。 这 是 破坏 性 的 ， 就 像 
对 计算 机 进行 关机 和 开机 操作 ， 其 中 的 状态 信息 会 丢失 。 虚 拟 机 重 置 要 比 
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虚拟 机 重启 消耗 更 多 的 时 间 。 
e VM 重启 : 客户 操作 系统 和 应 用 软件 被 重启 而 不 需要 重 置 整个 虚拟 机 实例 。 
。 激活 虚拟 机 快照 ， 虚 拟 机 快照 是 一 种 保留 VM 某 个 瞬间 镜像 的 机 制 ， 镜 像 
包括 虚拟 机 的 内 存 数 据 、 配 置 和 虚拟 磁盘 状态 。 一 旦 快照 成 功 创建 ， 它 可 
以 在 日 后 任何 时 间 激 活 或 存储 。 虚 拟 机 快照 是 一 种 非常 有 效 的 修复 机 制 ， 
它 能 够 提供 一 种 从 发 生 故障 的 虚拟 机 版 本 恢复 到 一 个 更 稳定 版 本 的 手段 。 
发 生 故 障 之 后 ， 之 前 被 保存 在 磁盘 上 的 虚拟 机 快照 可 以 被 恢复 和 激活 ， 这 
要 比 传统 的 冷 重启 更 快 ， 因 为 激活 快照 可 以 跳 过 比较 耗 时 的 应 用 启动 过 程 ， 
这 些 应 用 在 快照 被 创建 之 前 已 经 被 执行 过 ， 因 此 不 需要 重复 。 快 照 的 执行 
如 下 : 
一 个 刚 启动 的 应 用 实例 。 激 活 一 个 刚 启 动 的 快照 可 以 显著 减少 恢复 时 间 ， 
因为 可 以 跳 过 操作 系统 和 应 用 程序 的 启动 过 程 。 
周期 性 快照 。 值 得 注意 的 是 ， 如 果 周 期 性 的 连续 快照 里 包含 了 一 个 不 断 演 
化 的 故障 ， 例 如 在 堆 溢 出 之 前 出 现 的 内 存 泄漏 ， 周 期 性 的 快照 不 能 可 靠 地 
清除 故障 。 因 此 ， 如 果 周 期 性 的 快照 无 法 成 功 恢复 ， 那 么 应 该 恢复 到 一 个 
刚 启 动 的 快照 或 是 操作 系统 重启 之 后 的 快照 。 

因为 它 代表 了 一 个 旧版 本 的 VM ,快照 激活 可 能 在 发 生 故障 时 不 能 为 用 户 提供 
无 颖 的 服务 恢复 ， 因 为 它 不 可 能 有 最 近 的 状态 和 会 话 信息 。 

为 缩短 服务 受 影响 的 时 间 ， 管 理 人 员 或 是 自动 机 制 通常 都 会 触发 最 快 的 恢复 
机 制 来 清除 故障 ， 而 不 是 完成 一 份 详尽 的 故障 诊断 分 析 ， 指 出 故障 的 真正 根源 。 
如 果 最 快 的 恢复 动作 未 能 解决 问题 , 通常 可 能 会 尝试 执行 一 个 更 高 风险 ， 更 慢 或 
有 更 多 不 利 影响 的 操作 。 例 如 ， 如 果 一 个 应 用 程序 组 件 挂 起 ， 第 一 个 恢复 行为 可 
能 是 激活 一 个 刚 启动 的 应 用 组 件 快照 ， 如 果 未 能 恢复 服务 ，VM 实例 将 会 执行 重 
置 操 作 。 : 


5.3 通过 虚拟 化 改进 架构 修复 时 间 


如 图 5. 5 所 示 ， 虚 拟 化 和 云 计算 使 传统 的 手工 硬件 维修 过 程 蔡 换 为 离线 虚拟 机 
迁移 ， 这 可 以 大 大 缩短 架构 修复 时 间 。5. 3. 1 节 介 绍 了 传统 硬件 修复 过 程 ，5.3. 2 
节 介 绍 自动 虚拟 机 修复 即 服务 (Repair- as- a- Service, RaaS), 5.3.3 节 讨 论 这 些 机 
制 的 影响 。 


5.3.1 理解 硬件 修复 


MTTR 是 一 个 成 熟 且 广泛 使 用 的 概念 。 本 章 将 使 用 ITIL v3 对 MTTR 的 定义 : 
“配置 项 或 IT 服务 失效 后 的 平均 修复 时 间 ，MTTR 时 间 的 计算 是 从 配置 项 或 IT AR 
务 失效 开始 ， 直 到 修复 为 止 。MTTR 不 包括 恢复 或 还 原 所 需 的 时 间 ”。 对 于 计算 机 
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传统 修复 选项 修复 延迟 种 类 虚拟 化 修复 选项 
小 时 










虚拟 化 系统 的 简单 应 用 
修复 时 间 有 可 能 很 短 ， 
因为 生成 一 个 新 的 VM 
比 修复 一 个 物理 损坏 的 
硬件 要 快 得 多 。 








下 线 VM 迁 移 至 男 一 VM 服务 器 
秒 


图 5.5 传统 硬件 修复 与 虚拟 化 架构 复原 时 间 对 比 


和 信息 系统 人 硬件，MTTR 通常 设 为 4 个 小 时 ,包括 维修 人 员 和 备用 人 硬件 到 达 现 场 的 
时 间 。 严 格 的 培训 的 详细 的 操作 策略 可 以 缩短 硬件 MTTR。 需 要 注意 的 是 ，MTRS 
是 一 个 常用 的 测量 参数 ， 经 常 与 MTTR YEA. ITILv3 中 对 MTRS 的 定义 是 : “故障 
后 恢复 配置 项 或 IT 服务 所 需要 的 平均 时 间 。MTRS 的 计算 是 从 配置 项 或 服务 失效 
开始 ， 到 完全 恢复 并 且 各 项 功能 能 够 正常 工作 为 止 。 


5.3.2 虚拟 机 修复 即 服务 


虚拟 化 和 云 技术 终结 了 需要 进行 物理 维护 操作 才能 修复 受 架 构 故 障 影响 的 应 用 
组 件 的 情况 。 部 署 一 个 自动 化 的 “虚拟 机 修复 即 服务 ”机 制 而 不 是 依靠 应 用 维护 
工程 师 在 架构 发 生 故 障 之 后 通过 手工 操作 来 恢复 应 用 已 经 变 得 很 实际 。 在 定位 到 需 
要 修复 的 虚拟 机 实例 之 后 ， 自 动 虚拟 机 修复 逻辑 被 分 解 为 两 个 并 行 的 处 理 过 程 ， 如 
图 5. 6 所 示 。 


Wer: 


非 关 键 修复 步骤 \ 1 质量 改进 
/ 
关键 修复 步骤 


应 用 程序 
故障 as 初始 化 
开始 shears EEA OED at) mc 


图 5.6 简化 的 VM 修复 逻辑 


© 修复 关键 步 又 。 这 会 代替 失效 的 VM 实例 并 恢复 应 用 程序 到 全 功能 状态 
(例如 元 余 操 作 ) 。 这 个 过 程 包括 : 
o 对 替换 虚拟 机 实例 的 自动 分 配 和 配置 。 
9 目 动 初始 化 、 局 动 蔡 换 虚 拟 机 实例 或 激活 虚拟 机 快照 。 
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o 替换 虚拟 机 实例 的 目 动 检查 。 
当 蔡 换 虚拟 机 实例 正确 地 与 正在 运行 的 应 用 程序 组 件 实例 结合 ， 这 个 过 程 即 结 
束 。 请 注意 ， 这 些 操作 不 应 妨碍 由 应 用 提供 的 服务 恢复 操作 。 
。 非 关 键 过 程 。 包 括 不 在 替换 虚拟 机 实例 的 关键 修复 路 径 的 事务 ， 所 以 这 些 
非 关 键 事 务 可 以 并 行 执 行 来 修复 关键 过 程 。 主 要 的 非 关键 事务 包括 : 
o 捕捉 虚拟 机 故障 、 配 置 和 快照 数据 进行 离线 分 析 。 
o 释放 和 清理 (例如 删除 ) 失效 资源 或 不 再 需要 的 资源 。 
云 用 户 和 /或 云 服 务 提 供 商 可 以 决定 利用 哪些 虚拟 机 故障 事件 来 分 析 故 障 的 真 
正 原因 ， 从 而 可 以 采用 适当 的 纠正 措施 ， 不 断 改进 服务 质量 。 
这 些 自 动 化 的 操作 很 有 可 能 在 几 分 钟 内 完成 ， 而 不 是 通常 传统 硬件 维修 意义 上 
的 几 个 小 时 ， 而 且 重 要 的 是 要 认识 到 ， 故 障 检测 过 程 ， 激 活 上 自动 化 虚拟 机 修复 过 
程 ， 也 可 以 自动 化 ， 从 而 进一步 缩短 MTTR。 例 如 ， 如 果 应 用 程序 的 管理 和 控制 单 
元 可 以 自动 发 信号 启动 自动 化 虚拟 机 修复 机 制 ， 虚 拟 机 维修 过 程 就 可 以 在 虚拟 机 故 
障 事 件 发 生 后 几 秒 内 开始 。 完 全 的 自动 化 故障 检测 和 维修 服务 过 程 很 显然 远 远 快 过 
传统 处 理 流 程 ， 传 统 上 一 个 硬件 故障 会 向 维修 工程 师 报警 ， 然 后 创建 一 个 故障 单 ， 
通过 故障 单 局 动 传统 硬件 修复 过 程 。 
图 5.6 的 虚拟 机 修复 逻辑 可 以 被 集成 到 一 个 完全 上 自动 化 的 VM Raas 中 , 图 5.7 
展示 了 它 可 以 实现 的 服务 逻辑 。VM RaaS 在 图 5.6 中 添加 以 下 具有 关键 特性 的 基本 
逻辑 : 





应 用 程序 
初始 化 
故障 隔离 ei > 服务 ( 宛 余 ) 
b> Ce 恢复 
S e e a” 





故障 签 出 阶段 将 提高 危险 
警 界 同时 有 可 能 触发 二 级 
故障 隔离 步骤 


VM 修 复 即 服务 
持续 监测 VM 状 态 


图 5.7 自动 虚拟 机 修复 即 服务 逻辑 示例 


e Raas 可 以 实现 故障 监测 机 制 ， 主 动 发 现 虚 拟 机 实例 故障 。 当 自动 化 虚拟 机 
实例 故障 检测 机 制 上 上 一 个 虚拟 机 实例 ， 该 实例 会 被 故障 隔离 并 开始 修复 
过 程 。 
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© 故障 虚拟 机 实例 可 以 显 式 向 Raas 报告 。 例 如 ， 应 用 程序 的 管理 和 控制 架构 
可 以 明确 地 识别 故障 虚拟 机 实例 ， 可 以 在 应 用 层 的 高 可 用 机 制 成 功 恢复 用 
户 服务 之 后 立即 修复 虚拟 机 实例 。 需 要 修复 的 虚拟 机 实例 也 可 以 通过 GUI 
或 命令 行 机 制 来 手动 识别 。 

。 在 检查 阶段 ， 如 果 上 自动 修复 操作 无 法 恢复 服务 ， 会 产生 一 个 关键 报警 ， 维 
修 工程 师 可 以 介入 进行 处 理 。 如 果 通 和 常 的 修复 措施 仍 无 法 解决 问题 ， 一 些 
RaaS 可 以 会 更 智能 ， 可 以 支持 故障 的 二 次 隔离 和 逻辑 修复 。 


5.3.3 讨论 


虚拟 化 和 云 计算 使 得 去 用 户 可 以 将 虚拟 机 作为 “一 次 性 产品 ”对 等， 而 不 用 
总 得 考虑 修复 问题 。 传 统 的 拆卸 /交换 /重新 组 装 过 程 不 适 于 自动 化 ， 虚 拟 机 实例 的 
替换 ( 即 所 谓 的 “修复 ”) 基本 上 可 以 很 大 程度 上 实现 自动 化 ， 目 动 化 可 以 使 流转 
时 间 减 少 ， 降 低 在 修复 过 程 中 的 错误 风险 ， 降 低 故 障 事件 的 成 本 代价 。 缩 短 的 修复 
时 间 可 以 显著 改善 简单 ( 非 元 余 ) 应 用 和 组 件 的 可 用 性 ， 修 复 时 间 很 可 能 随 自动 
化 Raas 的 效率 和 作用 而 变化 ， 因 此 更 复杂 的 可 用 性 模型 可 以 应 用 到 被 Raas 保护 的 
简单 应 用 中 。 自 动 化 RaaS 缩短 了 修复 时 间 ， 减 经 了 虚拟 机 出 现 元 余 故障 和 高 可 用 
应 用 故障 时 单一 窗口 和 曝露 容量 问题 。 


5.4 元 余 和 可 恢复 性 


图 5.8 展示 了 简化 的 元 余 模型 ， 该 模型 的 整个 工作 流程 是 这 样 的 : 客户 端 实 例 
“A” 可 以 访问 服务 E ae koi 向 客户 端 提供 服务 *B” 
Serene j n” #4 ERGE 
Wo WR “ yain ke 
PAS matey 那么 服务 被 迁移 到 另 一 
个 服务 器 实例 (例如 “B2”)， 并 且 请 
求 也 被 重新 指向 该 元 余 服 务 髓 实例 。 正 
如 在 5. 1 节 所 解释 的 ， 真 正 的 分 布 式 应 
用 通常 包括 多 层 交 互 的 组 件 ， 因 此 ， 组 
件 可 能 逻辑 上 是 由 一 些 软件 和 与 该 软件 
进行 交互 的 服务 需 。 

简单 架构 通常 至 少 需要 一 些 手工 故 图 5.8 简单 的 元 余 模型 
障 诊断 和 服务 修复 操作 ， 与 简单 结构 相 
比 ， 宛 余 架 构 使 整个 恢复 过 程 实 现 了 自动 化 ， 如 图 5. 9 所 示 。 其 中 ， 

1) 硬件 或 软件 故障 发 生 ; 

2) 系统 迅速 地 自动 检测 故障 ; 


———_—— — Oo — -i 
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3) 将 故障 隔离 到 一 个 可 恢复 单元 ; 

4) 快速 自动 恢复 服务 到 一 个 元 余 组 件 ; 

5) 为 用 户 恢复 服务 。 

设计 高 可 用 性 机 制 的 目标 是 自动 检测 故障 、 隔 离 / 识 别 故 障 ， 能 够 尽 可 能 快 地 
恢复 用 户 服 务 ， 最 小 化 对 用 户 的 影响 。 在 不 可 能 同时 完成 以 上 这 些 操 作 的 情况 下 ， 
目标 可 以 设 定 为 只 要 比 最 大 可 接受 的 死机 时 间 更 短 即 可 。 这 样 的 话 ， 故 障 事件 只 会 
影响 服务 的 可 靠 性 指标 (例如 每 百 万 次 尝试 中 的 故障 事务 次 数 ) 而 不 是 累积 服务 
死机 时 间 ， 因 此 会 影响 服务 可 用 性 指标 (例如 服务 死机 时 间 )。 修 复 一 个 故障 需要 
仔细 分 析 故 障 的 根源 (例如 确定 是 哪个 硬件 组 件 或 软件 模块 出 现 了 故障 ) ， 在 元 余 
架构 中 ， 必 须 隔 离 故障 到 一 个 正确 的 元 余 单元 ， 这 样 适当 的 自动 恢复 机 制 才能 够 被 
激活 。 传 统 的 元 余 高 可 用 系统 通常 会 对 用 户 谣 溃 的 服务 进行 迁移 ， 这 种 迁移 是 秒 级 
或 毫秒 级 。 值 得 注意 的 是 ， 引 起 主要 故障 的 真正 根源 还 是 要 修复 的 ， 只 有 修复 之 后 
才能 重新 使 系统 处 于 元 余 机 制 的 完整 保护 之 下 ， 但 修复 操作 可 以 在 一 个 非 紧 急 的 时 










候 慢 慢 完 成 。 
1. 硬 件 或 软件 6. 故 障 单元 被 
故障 发 生 修复 系统 重 返 


4. 系 统 故 障 修 5. 系 统 重 返 
es 正常 操作 
至 元 余 实体 

自动 故障 恢复 


图 5.9 简化 的 高 可 用 性 策略 


如 图 5. 10 所 示 ， 主 服务 单元 (B1) 与 一 个 简单 架构 出 现 宕 机 的 时 间 是 相同 
的 ,但 是 用 户 服务 通过 重 定向 用 户 流量 到 一 个 元 余 的 “B2” 单 元 可 以 被 迅速 恢复 。 
这 样 ， 用 户 服务 持续 受 影响 的 时 间 会 大 大 缩短 (理论 上 可 以 是 秒 级 ) 。 

如 图 5. 11 所 示 ， 传 统 的 高 可 用 性 是 通过 元 余 硬 件 和 软件 来 实现 的 〈 例 如 宛 余 
ARF ae SEB “B2” Xf “B1” ZEA ERP) ， 请 求 被 单 播发 送 给 元 余 服 务 咒 中 的 一 个 
且 只 是 一 个 实例 上 (例如 “Bl1” 或 者 “B2)。 该 架构 在 很 大 程度 上 依赖 于 快速 检 
测 和 从 故障 中 恢复 的 机 制 。 请 注意 ， 代 理 负载 平衡 技术 (在 第 6 章 “ 负 载 分 配 和 
均衡 ”中 讨论 ) 可 以 在 复杂 的 服务 右 元 余 中 为 客户 端 提 供 保 护 。 

图 5. 12 显示 了 在 没有 故障 发 生 时 ， 一 个 顺序 元 余 系 统 中 普通 用 户 服务 的 时 间 
R: 客户 端 “A” 发 送 一 个 请 求 到 服务 器 实例 “Bl1”; “Bl1” 连 续 处 理 请 求 并 发 送 
一 个 反馈 给 客户 端 “ A”。 服 务 胡 实 例 “B2” 在 这 一 处 理 过 程 中 没有 介入 ， 因 为 

Bl1” 有 能 力 为 客户 端 “A” 提 供 连 续 服 务 。 


完全 元 余 操 作 





服务 修复 
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高 可 用 性 的 软件 
能 够 快速 将 任务 
从 失效 的 B1 组 件 
迁移 到 可 供 操作 


的 B2 组 件 
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B1 重 新 上 线 是 在 问题 解决 以 
及 严重 故障 修复 完成 之 后 





















B1 上 的 用 户 简单 服务 将 被 
中 断 ， 高 可 用 性 机 制 将 这 
些 用 户 服务 恢复 到 B2 上 


图 5.10 ”传统 的 (顺序 ) 宛 余 架 构 中 的 故障 


向 客户 端 提 供 服务 "B” 
的 服务 器 实例 池 


传 位 的 ， 每 一 个 请 求 都 
被 发 送 到 一 个 独立 的 组 
件 实例 ， 仅 由 一 个 服务 
器 进行 处 理 ， 这 就 是 所 
谓 的 顺序 操作 





图 5.11 顺序 元 余 模 型 


ae A” 服务 器 "BI” 服务器“B2" 
Pitas” sii 
_— ee > 
| 
服务 | 
延迟 we ae 
l mm, = 
. je- 


图 5.12 顺序 元 余 架 构 中 无 故障 时 间 表 





当 B1 修 复 完 
成 并 重新 可 


用 之 后 ， 任 
务 恢复 至 Bl 
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图 5. 13 显示 了 在 一 个 顺序 宛 余 系统 中 ， 一 个 主要 组 件 出 现 故障 之 后 修复 用 户 
服务 的 时 间 表 。 


服务 器 “B2” 











多 次 尝试 向 主 服务 器 发 
送 请 求 ， 超 过 最 大 次 数 
后 ， 客 户 端 向 元 余 服务 
器 发 送 重 试 请 求 












i 
由 于 故障 检测 和 修复 处 ~y 
于 关键 服务 交付 路 径 中 ， 
因此 服务 的 | 

Ne 


图 5.13 ir Fa Bek CRE AY TU ARR PB Ti] Ze a BH 


。 客户 “A” 发 送 一 个 请 求 到 服务 器 实例 “Bl"。 
。 由 于 服务 器 实例 “B1” 出 现 了 一 个 重大 故障 ， 它 无 法 返回 任何 明确 的 故障 
指示 给 客户 端 “A" 。 
。 由 于 客户 端 “A” 维 护 的 守护 定时 器 超时 ， 即 没有 在 指定 时 间 内 收 到 服务 
器 实例 “B1” 的 反馈 ,那么 客户 端 “A” 再 次 重新 向 “B1” 发 出 请 求 。 
。 额外 的 定时 器 多 次 超时 ， 直 到 达到 了 设 定 的 最 大 尝试 次 数 ， 表 示 服 务 器 
“B1” 发 生 故 障 。 
。 客户 端 “A” 将 服务 请 求 发 送 给 服务 器 实例 “B2”。 
。 服务 器 实例 “B2” 立 即 返回 一 个 成 功 反馈 给 客户 端 “A" 。 
值得 注意 的 是 ， 监 测 软件 可 以 控制 故障 转移 ， 只 要 该 监测 软件 是 在 高 可 用 架构 
下 实现 的 而 不 是 通过 客户 端 软件 实现 的 。 
在 一 些 情况 下 ， 主 服务 单元 “B1” 处 于 全 功能 状态 ， 可 以 将 一 个 明确 的 故 
障 反 馈 给 客户 端 “A”， 因 此 “A” 也 能 故障 转移 到 “B2”， 只 要 能 获得 明确 的 
故障 反馈 ， 而 不 需要 等 待 多 个 重复 到 “B1” 的 请 求 超时 后 才能 判断 “B1” 
故障 。: 
正如 在 图 5. 14 中 所 示 ， 如 果 主 单元 能 够 迅速 而 明确 地 给 客户 端 发 出 故障 信号 
“例如 : 服务 器 故障 SOO” ， 用 户 服务 恢复 的 速度 是 非常 快 的 。 
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- 图 5.14 带 有 显 式 故障 的 元 余 架 构 时 间 表 示例 


5.4.1 通过 虚拟 化 改进 恢复 时 间 


元 余 单 元 可 以 配置 成 多 种 准备 就 绪 状 态 ， 这 些 状态 会 影响 元 余音 元 可 恢复 用 户 
服务 的 速度 ， 从 而 直接 影响 服务 中 断 时 间 。 而 “ 冷 备 "、“ 温 备 ” 和 “ 热 备 ”这 些 
准备 就 绪 状 态 的 确切 意义 ， 会 因 行业 不 同 而 不 同 ， 但 一 般 会 认为 越 “温暖 ”"， 则 服 
务 恢复 的 速度 越 快 。 例 如 ， 恢 复 一 个 已 完全 启动 的 应 用 实例 要 比 恢复 一 个 已 经 启动 
操作 系统 但 没有 启动 应 用 的 实例 要 快 ， 并 且 这 两 种 恢复 方式 都 要 比 恢复 一 个 还 没有 
加 电 的 服务 器 要 快 。 
虚拟 化 引入 了 几 个 新 的 恢复 选择 ， 这 些 选择 可 以 比 传统 的 元 余 配置 消耗 更 少 的 
物理 资源 。 图 5. 15 给 出 了 元 余 架 构 传统 的 恢复 策略 和 虚拟 化 恢复 策略 的 对 比 时 间 
表 和 理论 上 的 恢复 延迟 。 从 最 慢 到 最 快 ， 新 的 虚拟 化 恢复 选择 如 下 : 
。 激 活 挂 起 的 虚拟 机 。 在 “ 挂 起 状态 ”虚拟 机 不 能 执行 任何 工作 。 虚 拟 机 及 
其 资源 的 状态 保存 到 非 易 失 性 存储 器 ， 虚 拟 资源 可 以 再 收回 。 应 用 组 件 实 
例 可 以 在 虚拟 中 启动 ， 并 且 那 些 虚拟 机 实例 可 以 被 挂 起 ;在 故障 发 生 之 后 ， 
挂 起 的 虚拟 机 实例 可 以 被 激活 ， 重 新 同步 并 开始 为 用 户 提供 服务 。 挂 起 的 
虚拟 机 实例 处 于 “ 深 睡 眠 ”状态 ， 所 以 与 激活 一 个 “暂停 ”的 虚拟 机 实 全 
相 比 有 更 多 的 增 量 恢复 延迟 ， 相 比 热 待机 会 有 更 多 的 延 时 ， 激 活 挂 起 的 虚 
拟 机 会 有 较 少 的 虚拟 化 平台 资源 消耗 。 
。 激活 暂停 的 虚拟 机 。 在 “暂停 ”状态 ， 一 个 虚拟 机 和 它 的 虚拟 资源 是 被 实 
例 化 的 ， 但 它们 并 不 是 执行 任何 任务 。 因 为 这 些 暂停 的 虚拟 机 已 经 被 实例 
化 并 且 资 源 也 被 分 配 ， 它 们 可 以 被 激活 并 可 以 快速 恢复 服务 。 暂 停 的 虚拟 
机 实例 处 于 “ 轻 睡 眠 ”状态 ， 因 此 相 比 切换 到 另 一 个 活动 的 元 余 虚 拟 机 或 
是 热 待机 的 虚拟 机 ， 激 活 暂停 的 虚拟 机 有 额外 的 服务 恢复 延迟 ， 但 是 它 的 


> 


ie 
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传统 的 修复 选项 ee 虚拟 化 修复 选项 
fia] 


故障 恢复 至 “ 冷 ”备用 设备 





故障 恢复 至 “ 暖 ”备用 设备 | 激活 挂 起 的 VM 
激活 暂停 的 VM 


故障 恢复 至 “ 热 ”备用 设备 | 故障 恢复 至 (虚拟 的 ) 热 备用 设备 
故障 恢复 至 宛 余 活 动 设备 | 故障 恢复 至 (虚拟 的 ) 元 余 活 动 设备 
各 


图 5.15 传统 的 元 余 架 构 恢 复 时 间 


优势 是 需要 非常 少 的 平台 资源 (如 CPU 资源 ) 。 

o 故障 转移 到 活动 的 虚拟 元 余 单 元 。 传 统 的 元 余 单 元 不 再 是 专用 硬件 而 是 可 
以 进行 配置 、 保 持 同 步 或 是 进行 维护 的 虚拟 机 。 在 虚拟 机 实例 中 将 故障 转 
移 到 宛 余 单元 与 转移 到 本 地 宛 余 单元 有 相同 的 延迟 。 值 得 注意 的 是 ， 当 活 
动 单元 能 够 正常 工作 时 ， 竺 机 的 宛 余 单元 很 少 被 使 用 ， 而 虚拟 化 使 得 这 些 
在 传统 部 署 方式 下 绝 大 部 分 时 间 处 于 闲置 状态 的 元 余 单元 的 计算 、 存 储 、 
网 络 资源 可 以 被 其 他 应 用 使 用 ， 由 此 降低 了 用 户 的 OPEX。 


顺序 元 余 和 并 发 元 余 


如 图 5. 16 所 示 ， 并 发 元 余 架 构 逻 辑 上 赋予 客户 端 实例 “A” 多 播 服务 请 求 能 
可 以 向 两 个 或 多 个 服务 器 实例 “B1、B2” 等 发 出 请 求 。 


向 客户 端 提供 服务 “B” 
的 服务 器 实例 池 


在 并 发 元 余 操 作 中 每 个 事务 
都 是 逻辑 多 播 的 ， 而 实际 上 
是 同时 在 两 全 或 多 全 服务 器 
实例 上 并 行 处 理 的 





图 5.16 并 发 元 余 处 理 模型 
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有 两 个 或 多 个 服务 器 实例 同时 处 理 完全 相同 的 客户 端 请 求 ， 增 加 了 迅速 反馈 给 
客户 端正 确 结果 的 概率 。 然 而 这 一 架构 有 几 点 不 足 ; 

。 并 发 元 余 实质 性 增加 了 客户 端 软 件 的 复杂 性 。 客 户 端 软件 必须 即 管理 多 播 
请 求 和 响应 ， 还 要 决定 使 用 哪 一 个 响应 ， 有 时 ， 延 迟 响应 ( 因为 可 能 会 有 
一 些 服务 器 实例 运行 比较 慢 ) 或 相互 冲突 的 响应 (如 一 些 服务 器 实例 有 故 
障 或 数据 不 是 同步 造成 ) 被 返回 ， 从 而 使 得 逻辑 更 为 复杂 。 

并 发 元 余 增加 了 同步 的 挑战 。 因 为 每 个 操作 都 被 期 望 是 同时 发 生 在 两 个 或 

两 个 以 上 的 相互 独立 的 服务 器 实例 中 ,访问 相同 的 逻辑 应 用 数据 ， 从 而 同 

步 机 制 在 设计 时 必须 考虑 能 够 处 理 数据 争 用 问题 。 

。 并 发 元 余 实质 性 增加 了 服务 器 资源 消耗 。 因 为 对 于 简单 系统 或 传统 元 余 方 
式 ， 每 个 请 求 至 少 被 处 理 两 次 ， 带 来 两 次 资源 消耗 。 

图 5.17 给 出 了 并 发 元 余 操 作 的 时 间 表 : 





2 
ama a= 
一 


采用 多 数 投票 策略 产生 可 靠 的 结果 但 服务 延迟 较 大 
采用 第 一 匹配 策略 得 到 较 可 靠 的 结果 但 有 时 服务 延迟 较 大 


图 5.17 客户 端 控 制 元 余 计 算 策 略 








。 客户 端 “A” 逻 辑 上 多 播 每 个 请 求 到 多 个 服务 器 实例 〈 如 在 本 示例 中 的 
“B1, B2 和 了 B3”)。 

。 每 个 服务 器 实例 独立 地 响应 客户 端 “A”， 不 可 避免 的 是 每 个 服务 器 的 响应 
延 时 会 有 所 不 同 。 

。 客户 病 “A” 针 对 啊 应 会 选择 一 个 适当 的 策略 以 决定 使 用 哪个 结果 ， 什 么 
时 间 使 用 。 为 了 屏蔽 单个 服务 器 实例 故障 ， 客 户 端 选择 的 策略 可 能 不 是 等 
待 所 有 服务 器 实例 都 返回 响应 。 每 个 服务 顺 实 例 独立 返回 响应 ， 客 户 端 
“A” 依 据 算 法 选择 一 个 响应 ， 这 些 算法 例如 : 
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o 最 先 (或 是 最 快 ) 成 功 (或 是 无 误 ) My; 
o 最 先 匹配 响应 ; 
o 国定 时 间 内 收 到 的 多 数 成 功 响应 。 
图 5. 18 显示 了 当 服 务 器 实例 “B2” 失 效 时 ， 并 发 元 余 操 作 过 程 。 因 为 “B1” 
和 “B3” 及 时 向 客户 端 “A” 成 功 发 出 了 应 答 ， 由 于 “B2” 故 障 而 导致 的 服务 延 
迟 影 响 可 以 忽略 不 计 ,“B2” 是 否 发 出 了 显 式 故障 提示 (例如 返回 “500 服务 器 内 
部 错误 ”) 或 是 隐 式 的 故障 提示 (例如 通过 计时 器 超时 ) 也 可 以 忽略 不 计 。 


Fig “A” 服务 器 “BI1” > Wk $5 tee B3” 
客户 端 向 所 有 服 venti | 


务 器 实例 发 送 逻 bearish ae ee ees 
辑 多 播 请 求 


啊 应 


客户 端 决定 采用 
何 种 响应 | ee ie : 


注意 服务 延迟 不 会 


受 某 个 服务 器 实例 
故障 的 影响 





图 5.18 客户 端 控制 元 余 选 项 


值得 注意 的 是 ， 使 用 最 先 响应 策略 会 产生 比 简单 或 元 余 架 构 更 短 的 服务 延迟 ， 
但 会 带 来 软件 故障 风险 ， 即 单个 软件 的 故障 可 能 导致 对 所 有 用 户 的 服务 质量 下 降 。 
例如 ， 图 5. 19 展示 了 一 个 软件 故障 案例 ， 该 软件 故障 导致 服务 器 实例 总 是 返回 提 
示 “404 无 法 找到 ””， 且 在 其 他 服务 器 实例 返回 正确 结果 之 前 返回 ， 在 这 种 情况 
下 ， 错 误 的 结果 将 目 动 被 使 用 。 因 此 ， 并 发 元 余 架构 的 客户 端 经 常 使 用 选择 算法 来 
应 对 该 问题 ， 例 如 采用 首先 匹配 啊 应 算法 ， 既 可 以 最 小 化 使 用 快速 响应 算法 所 带 来 
的 错误 风险 ， 又 可 以 屏蔽 由 于 单个 服务 器 实例 故障 而 排除 其 他 服务 器 实例 响应 的 情 
Mu. [Dean] “ 绑 定 请 求 ” 即 请 求 被 发 送 给 多 个 有 身份 标记 的 服务 器 。 第 一 个 响应 
请 求 的 服务 需 会 发 送 “ 取 消 指令 ”到 其 他 服务 器 ， 这 样 其 他 服务 器 就 不 会 再 返回 
任何 啊 应 。 


O ““404 没有 找到 ”被 定义 为 “服务 器 并 没有 发 现任 何 匹 配 的 URI 请 求 ”[ RFC2616 ] 。 
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客户 端 向 所 有 服 
务 器 实例 发 送 逻 
辑 多 播 请 求 


除非 客户 端的 
请 求 至 少 有 两 
个 匹配 的 响应 ， 
否则 它 将 会 直 
接 接受 最 快 但 
可 能 是 错误 的 


响应 ， 服 务 请 
求 有 可 能 出 错 





图 5.19 带 快速 错误 回报 的 并 发 元 余 时 间 表 


5.5.1 混合 并 发 策略 


相 比 顺序 元 余 ， 并 发 元 余 通 过 有 效 地 消除 故障 检测 延迟 ， 可 以 提供 更 好 的 用 户 
服务 质量 ， 但 消耗 更 多 资源 。 事 实 上 ， 大 多 数 应 用 可 能 不 需要 并 发 元 余 架 构 提 供 特 
别 完 美的 服务 延迟 ， 可 靠 性 和 可 用 性 。 如 果 采 用 混合 并 发 模型 则 可 以 获得 更 好 的 服 
务 质 量 , 更 低 的 资源 消耗 。 起 初 ， 混 合 模 型 发 送 每 一 个 请 求 到 一 个 单个 服务 器 实 
例 ， 当 出 现 重合 超 时 的 情况 下 从 这 个 服务 右 实 例 成 功 返 回 的 应 答 会 被 使 用 。 如 果 所 
选择 的 服务 器 实例 不 能 在 重合 超时 时 间 内 进行 啊 应 (例如 服务 延迟 时 间 的 99% ， 
99. 9% 或 99.99% ) ， 那 么 请 求 会 被 发 送 到 另 一 个 服务 器 实例 。 任 何 第 一 个 被 收 到 
的 响应 都 会 被 客户 端 所 采用 。 混 合并 发 策略 与 “对 冲 请 求 ”策略 非常 相似 。 在 
图 5. 20 中 显示 了 混合 并 发 操作 的 时 间 表 : 客户 端 “A” 向 “Bl1” 发 送 请 求 ， 如 果 
FE Tc 时 间 内 没有 收 到 响应 ， 客 户 问 “A” 会 发 送 相同 的 请 求 到 服务 器 “B2” ， 并 

客户 端 “A” 服务 器 Bl 服务 器 “B2” 












i 请 求 1 

如 果 重 查 计时 器 at Mone > 
超时 仍 未 收 到 响 计时 器 
应 ， 到 客户 端 将 
向 各 选 服务 器 发 求 2 
dele ac - 

响应 We 
客户 端 接收 第 一 个 
名 义 上 成 功 的 响应 

| swee errr 





客户 端 抛弃 较 慢 的 
啊 应 


图 5.20 带 慢 响应 的 混合 并 发 
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上 且 “Bl1” 或 者 “B2” 会 使 用 首先 成 功 啊 应 策略 。 可 以 肯定 的 是 ， “Bl1” 对 原始 请 
求 的 反馈 会 略 晚 或 者 再 有 一 个 到 “Bl1” 的 请 求 会 获得 成 功 (如 图 5. 20 Bras), 至 
少 “B2” 会 很 可 能 迅速 做 出 啊 应 。 但 是 如 果 “B1” 发 生 故 障 ， 那 么 通过 快速 到 加 
对 “B2” 的 请 求 ， 客 户 端 会 收 到 一 个 及 时 的 啊 应 。 


5.6 虚拟 化 缺陷 对 应 用 服务 的 影响 


本 节 重 点 讨论 架构 的 缺陷 〈 第 4 章 “ 虚 拟 化 架构 缺陷 ) 对 应 用 服务 的 影响 
(第 2.5 节 ,“ 应 用 程序 服务 质量 ") 是 怎样 通过 本 章 所 述 的 四 种 元 余 架 构 得 到 组 
解 的 。 

。 简单 〈 非 元 余 ) 架构 (5.17); 

© 传统 的 顺序 元 余 架 构 (第 5.4 节 ); 

。 并 发 见 余 架构 (第 5.5 47) ; 

© 混合 并 发 架构 〈 第 5.5.1 节 )。 


5.6.1 简单 架构 的 服务 影响 


由 于 简单 架构 特征 ， 只 有 单个 服务 组 件 和 服务 可 以 被 修复 ,这 会 显著 影响 用 户 
服务 ， 单 个 部 署 的 应 用 服务 往往 能 够 忍受 虚拟 化 架构 的 一 般 性 缺陷 ， 直 到 服务 受到 
重大 影响 ， 必 要 采取 服务 影响 的 恢复 措施 。 与 其 他 措施 进行 比较 ， 通 常 将 简单 架构 
的 服务 影响 作为 性 能 比较 的 基准 。 


5.6.2 顺序 宛 余 架构 的 服务 影响 


当面 对 虚拟 化 架构 的 缺陷 时 ， 传统 的 顺序 元 余 架 构 对 用 户 服务 的 影响 包括 如 下 
几 项 : 

© 虚拟 机 故障 的 影响 (58 5.6.2.1 47); 

© 无 法 交付 事件 的 影响 (第 5. 6.2.2 节 ); 

© 退化 交付 事件 的 影响 (第 5. 6.2.3 节 ); 

。 尾部 延迟 的 影响 (第 5.6.2.4 节 ); 

o 时 钟 拌 动 事件 的 影响 (第 5.6.2.5 节 ); 

。 时 钟 漂移 的 影响 (85.6.2.677); 

© 虚拟 机 分 配 和 启动 缺陷 的 影响 (第 5.6.2.7 节 )。 
5.6.2.1 虚拟 机 故障 的 影响 

虚拟 机 故障 类 似 传统 元 余 机 制 中 的 硬件 故障 。 假 设 Iaas 中 的 备用 虚拟 机 容量 
可 用 ， 那 么 离线 迁移 可 以 修复 故障 组 件 ， 且 比 本 地 要 快 许 多 ， 更 减少 了 应 用 的 单一 
骏 露 时 间 。 由 于 由 二 次 故障 造成 的 双 工 故障 是 很 少见 的 ， 最 大 限度 地 减少 单一 暴露 
是 最 好 的 做 法 。 
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5.6.2.2 无 法 交付 事件 的 影响 

如 图 $. 21 所 示 的 服务 交付 时 间 表 中 有 一 个 非常 简短 的 Thowpaiwew 事件， 所 以 
TNuopuvev 和 Twoma 的 总 和 小 于 Tec。 在 这 种 情况 下 ， 传 统 元 余 架 构 的 服务 影响 与 简 
单 架构 是 相同 的 。 





客户 端 *A” 服务 器 "Bl 
(终端 用 户 应 用 ) (目标 YM 实例 ) 
cca R 
无 法 交付 的 See 
VM 容量 事件 } TNonDelivery 
TUser= TNormal + TNonDelivery . E ~ 
| 应 用 程序 处 理 i } T Normal 
”| 响 应 1 


图 5.21 非常 简明 的 无 法 交付 事件 对 应 用 程序 服务 的 影响 


5. 22 展示 了 服务 交付 时 间 表 ， 其 中 Toipoiwewy 加 上 Thoma 上 略 大 于 Tc,s， 因 为 客 
户 端 进行 了 重 试 ， 但 在 计时 器 超时 前 没有 收 到 应 答 。 当 接近 T\,ipoiws 时 间 并 且 超 出 
了 最 大 可 接受 的 服务 延迟 ， 用 户 会 认为 事务 处 理 已 经 失败 ， 从 而 影响 服务 可 靠 性 和 
可 访问 性 , :并 可 能 还 会 影响 服务 的 持久 性 。 对 传统 /顺序 架构 ， 无 法 交付 的 虚拟 机 
容量 将 直接 影响 应 用 程序 服务 延迟 。 传 统 宛 余 架 构 的 用 户 服务 影响 在 短暂 无 法 交付 
事件 上 ， 是 和 简单 架构 一 样 的 。 这 是 因为 元 余 机 制 不 能 被 激活 。 较 长 的 时 间 延 迟 可 


能 导致 应 用 的 故障 转移 。 
客户 端 *A” 服务 器 "Bl 
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图 5.22 简明 的 无 法 交付 时 间 对 应 用 程序 服务 的 影响 
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5.6.2.3 退化 交付 事件 的 影响 

由 于 资源 访问 需要 排队 ， 可 以 通过 一 些 操 作 来 增加 服务 延迟 ， 这 种 退化 的 资源 
容量 会 直接 影响 服务 时 延 ， 但 传统 的 元 余 机 制 不 会 因此 被 激活 ， 因 为 用 户 服 务 与 简 
EASE Fe) ce FH [A] A) « 
5.6.2.4 尾部 延迟 的 影响 

多 余 的 尾部 延迟 事件 不 太 可 能 影响 初始 请 求 和 所 有 后 续 重 试 操作 ， 传 统 的 元 余 
机 制 不 会 被 激活 ， 所 以 用 户 服务 的 影响 将 是 与 简单 架构 相同 的 。 
5.6.2.5 ”时钟 拌 动 事 件 的 影响 

在 传统 元 余 架 构 中 ， 只 有 一 个 单独 的 组 件 实 例 为 每 个 用 户 请 求 提 供 服务 ， 时 钟 
拌 动 事件 对 用 户 服务 的 影响 与 传统 的 元 余 架 构 是 相同 的 。 
5.6.2.6 ”时钟 漂 移 的 影响 

宛 余 组 件 之 间 的 系统 时 钟 漂 移 ， 会 导致 两 个 或 两 个 以 上 的 元 余 实例 (例如 
“B1” 和 “B2”) 有 不 同 的 当前 时 间 。 其 结果 就 是 ， 在 服务 发 生 故 障 时 ， 服 务 从 一 
个 服务 器 实例 (例如 “Bl1”) 迁移 到 另 一 个 服务 器 实例 (例如 “B2”) ， 客 户 疹 可 
能 会 明显 体验 到 轻微 的 时 间 变 化 。 
5.6.2.7 虚拟 机 分 配 和 启动 缺陷 的 影响 

对 于 简单 架构 ， 虚 拟 机 的 分 配 和 启动 是 处 于 用 户 服务 恢复 的 关键 路 径 上 ， 然 而 
对 于 传统 的 元 余 架 构 则 不 在 关键 恢复 路 径 上 。 在 传统 架构 中 ， 为 了 修复 完整 的 匈 余 
故障 ， 虚 拟 机 分 配 和 启动 是 必须 要 经 历 的 ， 所 以 虚拟 机 分 配 和 启动 故障 或 缓慢 都 会 
延长 传统 元 余 架 构 在 故障 后 的 单一 曝露 时 间 ， 但 这 种 不 利 因素 对 用 户 服务 几乎 没有 
影响 。 


5.6.3 并 发 元 余 架 构 的 服务 影响 


在 减轻 虚拟 化 架构 缺陷 对 用 户 服务 影响 方面 ， 与 顺序 元 余 或 简单 架构 相 比 ， 并 
发 见 余 架构 是 更 好 的 ， 这 将 在 接 下 来 的 一 节 中 讨论 。 
5.6.3.1 虚拟 机 故障 的 影响 

参见 图 5. 18， 并 发 元 余 架 构 可 以 完全 掩盖 虚拟 机 故障 对 用 户 服务 的 影响 。 
5.6.3.2 无 法 交付 事件 的 影响 

如 图 5.23 所 示 ， 并 发 元 余 架 构 可 以 有 效 减 轻 无 法 交付 事件 的 不 利 影 啊 。 
5.6.3.3 退化 交付 事件 的 影响 

并 发 元 余 架 构 可 以 有 效 缓解 退化 的 资源 交付 事件 的 影响 ， 同 样 也 可 以 减轻 无 法 
交付 事件 的 影响 。 
5.6.3.4 尾部 延迟 的 影响 

并 发 元 余 架 构 能 够 完全 缓解 尾部 延迟 事件 对 用 户 服务 影响 ， 因 为 及 时 的 成 功 啊 
应 会 屏蔽 掉 延 迟 响应 。 
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客户 端 A” 服务 器 "Bl 服务 器 “B2” 服务 器 "B3” 


客户 端 向 所 有 

服务 器 实例 发 

送 多 播 请 求 

客户 端 使 用 其 中 

一 个 提示 响应 

忽略 其 他 迟缓 
的 响应 





图 5.23 无 法 交付 错误 对 元 余 计 算 架 构 的 影响 


5.6.3.5 ”时钟 抖动 事件 的 影响 

通过 使 用 成 功 的 低 抖 动 响应 和 丢 奔 高 持 动 响应 ， 并 发 元 余 架 构 可 以 降低 时 钟 持 
动 对 用 户 服务 的 影响 。 
5.6.3.6 时 钟 漂移 的 影响 

如 果 并 发 元 余 池 中 的 服务 器 实时 时 钟 漂 移 导 致 不 同步 ， 那 么 客户 端 和 云 用 户 可 
能 会 被 由 不 同 服务 器 实例 上 提供 的 事务 处 理 服 务 的 时 序 弄 得 混乱 。 然 而 这 个 风险 基 
本 上 与 顺序 元 余 是 相同 的 ， 并 发 匈 余 意味 着 发 送 到 客户 端的 实际 响应 能 够 在 服务 器 
组 件 之 间 被 蔡 代 ， 这 样 客户 端 可 能 会 在 任何 两 个 事务 之 间 有 略为 不 同 的 时 间 惟 ， 而 
与 顺序 元 余 相 比 ， 客 户 端 只 能 感觉 到 故障 迁移 之 后 的 时 钟 漂 移 或 是 转换 事件 。 
5.6.3.7 虚拟 机 分 配 和 启动 缺陷 的 影响 

虚拟 机 配置 和 启动 产生 的 缺陷 不 在 用 户 服务 交 付 或 恢复 路 径 上 ， 所 以 这 些 故 障 
不 会 影响 并 发 见 余 架构 的 用 户 服务 。 


5.6.4 混合 并 发 架构 的 服务 影响 


在 降低 虚拟 化 架构 不 利 影响 方面 ， 混 合并 发 元 余 架 构 比 传统 的 顺序 元 余 要 好 ， 
但 是 不 及 并 发 元 余 。 
5.6.4.1 虚拟 机 故障 的 影响 

在 用 户 服务 延迟 方面 ， 混 合 元 余 架 构 要 比 并 发 元 余 略 微 增加 ， 因 为 这 些 操作 最 
初 饿 发 送 到 一 个 故障 的 虚拟 机 实例 上 ,但 整体 服务 延迟 的 影响 可 能 要 比 传统 的 匈 余 
架构 小 得 多 。 
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5.6.4.2 无 法 交付 事件 的 影响 
如 图 5. 24 所 示 ， 混 合 宛 余 架 构 应 该 限制 由 于 无 法 交付 事件 导致 的 服务 延迟 , 
限制 在 大 约 To 加 上 Tyormat o 


客户 端 *A” 服务 器 “BI1” 服务 器 “B2” 





图 5.24 无 法 交付 错误 对 混合 并 发 架构 的 影响 


5.6.4.3 退化 交付 事件 的 影响 

混合 元 余 架 构 将 像 减 轻 无 法 交付 事件 的 影响 一 样 ， 可 以 有 效 地 缓解 用 户 服务 的 
退化 交付 事件 影响 。 如 图 5.24 所 示 ， 混 合 宛 余 架 构 应 该 限制 由 于 不 相关 的 退化 交 
付 事件 引起 的 服务 延迟 ， 大 约 限 制 在 To 加 上 Tyormat 0 
5.6.4.4 尾部 延迟 的 影响 

混合 元 余 架 构 应 该 减轻 极端 尾部 延迟 事件 的 影响 ， 因 为 过 期 的 To 将 导致 
癌 男 一 服务 器 组 件 实例 发 送 重 试 请 求 ， 所 以 客户 应 该 在 To,as, 加 上 Thoww 时 间 内 
接收 到 响应 。 更 激进 的 作法 是 将 To 设置 更 短 ， 从 而 服务 延迟 的 尾部 应 该 
更 小 。 
5.6.4.5 ”时钟 抖动 事件 的 影响 

混合 并 发 体系 结构 在 降低 时 钟 拌 动 事件 方面 通常 是 无 效 的 ， 时 钟 拌 动 事件 时 间 
要 明显 短 于 To, ， 因 为 匈 余 请 求 不 会 被 迅速 发 送 ， 响 应 也 不 会 足够 快 以 屏蔽 大 多 
数 时 钟 拌 动 。 
5.6.4.6 时钟 漂移 的 影响 

客户 相 比 顺序 元 余 架 构 ， 混 合 元 余 架 构 可 能 会 让 客户 端 更 多 体验 到 服务 器 时 钟 
深 移 ， 因 为 对 于 单个 事务 处 理 而 言 ， 可 能 偶尔 会 由 混合 元 余 架 构 中 的 备用 服务 器 提 
供 服 务 ， 而 在 顺序 元 余 架 构 中 ， 只 有 在 故障 迁移 时 备用 服务 器 才 会 被 使 用 。 
5.6.4.7 虚拟 机 分 配 和 启动 缺陷 的 影响 

虚拟 机 分 配 和 局 动产 生 的 缺陷 不 在 用 户 服务 交付 或 恢复 路 径 上 ， 所 以 这 些 问 题 
对 于 混合 元 余 架 构 不 会 影响 用 户 服务 。 
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5.7 数据 元 余 


在 最 高 的 层次 上 ， 分 布 式 应 用 通过 在 处 理 器 上 执行 程序 提供 各 种 服务 ， 以 满足 
基于 数据 的 输入 。 本 章 前 面部 分 讨论 了 利用 处 理 器 的 宛 余 管 理 来 缓解 组 件 实例 的 故 
障 问题 ， 采 用 重 试 策略 来 减轻 丢失 的 输入 请 求 。 程 序 文 件 是 静态 的 ， 所 以 它 很 容易 
被 提前 复制 。 这 带 来 一 个 并 非 完全 静态 的 数据 问题 ， 这 个 问题 涵盖 了 不 同 的 内 容 ， 
例如 : 

。 应 用 实例 配置 数据 ， 如 IP 地 址 和 DNS 名称 ; 

。 用户 数据 ， 如 用 户 名 、 密 码 和 参数 ; 

。 应 用 数据 ， 如 库存 数据 库 ; 

。 会 话 数据 ， 如 当前 登录 的 用 户 和 最 后 被 执行 的 事务 ; 

。 事务 数据 ， 例 如 客户 端 请 求 的 输入 参数 ; 

。 变量 和 处 理 器 寄存 器 ， 如 堆栈 指针 的 当前 值 。 

数据 丢失 后 恢复 服务 的 影响 在 这 个 范围 内 变化 很 大 : 没有 DNS 名 ， 应 用 组 件 
可 能 不 能 成 功 地 启动 ， 但 是 当 一 个 进程 崩溃 时 丢失 的 自动 变量 可 能 不 会 被 注意 到 。 
因此 ， 架 构 师 必须 仔细 考虑 ， 在 执行 故障 时 什么 数据 丢失 是 可 以 接受 的 损失 (如 
在 主 存 中 自动 变量 的 内 容 ) 哪些 数据 必须 在 失效 事件 过 程 中 予以 保留 。 很 少 变化 
”的 数据 (如 DNS 名 称 ) 通过 写 人 持久 存储 (如 磁盘 ) 和 定期 复制 ， 是 相对 容易 保 
留 的 。 但 车 要 保留 高 度 变化 的 数据 是 相当 困难 的 ， 因 为 在 复制 时 数据 的 变化 会 需要 
使 用 更 高 的 带宽 ， 当 需要 保持 与 复制 值 的 一 致 性 时 ， 会 有 更 大 的 并 发 风险 。 但 是 ， 
如 果 变 化 的 数据 可 以 存储 在 一 个 共享 的 宛 余 存储 器 中 ， 复 制 会 变 得 简单 ， 因 为 通过 
从 共享 存储 器 访问 变化 数据 ， 更 多 的 组 件 可 以 为 故障 组 件 提供 恢复 功能 ， 尽 管 可 能 
在 获得 数据 时 会 产生 延迟 成 本 。 


5.7.1 数据 存储 策略 


对 于 存储 应 用 数据 ， 应 用 程序 架构 师 有 三 大 选择 : 

e 存储 在 RAM 内 存 中 。 这 提供 了 一 种 最 快 访问 速度 和 最 高 成 本 的 选择 。RAM 
在 本 质 上 是 一 个 易 失 性 存储 介质 ， 当 断 电 时 ， 数 据 会 丢失 。 实 际 上 ，RAM 
与 特定 应 用 程序 实例 通常 是 紧密 耦合 在 一 个 〈 虚拟 )- 机 器 上 的 。 通 过 一 个 
特定 的 应 用 实例 访问 和 操纵 内 存 中 的 内 容 ， 如 果 应 用 程序 实例 失效 ， 那 么 
该 内 存 的 内 容 通 常 是 会 丢失 的 。 因 此 ， 可 以 将 基于 RAM 存储 称 为 “ 易 失 性 
存储 ”， 因 为 使 用 该 内 存 的 应 用 出 现 故障 或 是 虚拟 机 故障 都 会 导致 “ 易 失 
性 存储 ”RAM 存储 的 内 容 丢 失 。 由 于 内 存 提供 了 极 低 的 访问 延迟 ， 这 对 存 
储 不 稳定 数据 ( 如 处 理 器 栈 ) ， 以 及 存储 经 常 被 访问 的 数据 (如 可 执行 指 
令 ) 是 比较 理想 的 。 
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© 存储 在 持久 性 介质 上 。 和 硬盘、 闪存 和 光碟 被 称 为 持久 性 介质 ， 因 为 不 管 是 
典型 的 断 电 还 是 应 用 程序 故障 ， 在 这 些 设备 上 存储 的 数据 是 持久 的 。 持 久 
存储 设备 通常 提供 非常 大 的 容量 ， 虽然 每 个 设备 的 成 本 可 能 是 中 度 到 高 度 ， 
但 存储 的 单位 成 本 是 很 便宜 的 。 因 为 持久 性 存储 本 里 访问 延迟 较 大 ， 致 使 
在 持久 性 介质 存储 动态 数据 是 非常 不 合适 的 ; 在 极端 情况 下 ， 动 态 数 据 的 
变化 速度 可 能 比 持久 性 介质 可 以 记录 变化 的 速度 更 快 ， 从 而 持久 性 介质 的 
延迟 成 为 限制 应 用 性 能 的 主要 原因 。 
存储 在 客户 端 应 用 /设备 上 。 把 数据 存储 在 客户 端 上 ， 数 据 的 成 本 和 维护 是 
客户 端 用 户 的 责任 而 不 再 是 应 用 组 件 染 构 设 计 的 责任 。 但 是 从 应 用 本 号 问 
客户 端 设 备 推 送 数据 不 能 消除 故障 对 用 户 服务 的 影响 ， 它 只 是 将 责任 推 给 
了 最 终 用 户 ， 这 超出 了 本 文 讨论 的 范围 。 

值得 注意 的 是 ，RAM 存储 需 中 的 内 容 经 常 通过 从 持久 性 介质 (或 高 速 缓存 ) 
复制 的 数据 来 初始 化 ， 就 像 从 持久 性 的 硬盘 上 复制 一 个 可 执行 程序 到 主 存储 器 来 执 
行 一 样 。 还 需要 注意 的 是 ， 高 速 缓冲 存储 融 〈 例 如 ， 在 微 处 理 顺 芯片 的 L2 高 速 组 
存 ) 不 被 考虑 用 于 数据 存储 ， 那 是 因为 高 速 缓冲 存储 器 的 内 容 在 使 用 之 前 就 已 被 
明确 地 同步 到 基本 存储 中 了 。 

亚马逊 Web 服务 所 倡导 的 数据 存储 的 原则 之 一 是 :“ 保 持 动态 数据 更 接近 计算 
机 ， 而 静态 数据 更 接近 最 终 用 户 ”[ Varia] 。 对 于 RAM 存储 ， 动 态 数据 是 一 个 很 好 
的 使 用 者 ， 而 静态 数据 应 存储 起 来 ， 提 供给 应 用 实例 以 给 最 终 用 户 提供 最 好 的 服 
务 。 需 要 注意 的 是 ， 对 于 大 型 系统 ， 搬 移 计 算 机 要 比 搬移 数据 更 容易 。 

正如 “没有 单 点 故障 ”的 要 求 ， 需 要 禁止 单个 应 用 处 理 或 虚拟 机 实例 ， 单 个 
RAM 或 单一 的 持久 性 存储 设备 可 能 是 关键 应 用 的 一 个 单 点 故障 点 。 通 常 ， 这 意味 
着 所 有 的 数据 都 必须 被 保存 在 两 个 在 物理 上 独立 的 实例 中 ， 因 此 ， 如 果 一 个 存储 设 
备 发 生 故 障 ， 服 务 可 以 迅速 地 恢复 到 另 一 个 存储 设备 上 。 独 立 的 数据 实例 、 同 步 能 
力 以 及 为 访问 应 用 提供 较 低 延迟 的 可 靠 存 储 ， 在 配置 应 用 数据 需求 时 是 需要 重点 考 
虑 的 因素 。 


5.7.2 数据 一 致 性 策略 


在 云 环 境 下 数据 管理 是 复杂 的 ， 因 为 事务 可 以 跨越 多 个 应 用 程序 实例 ， 也 可 以 
存储 在 多 个 位 置 。 一 般 ， 有 两 种 类 型 的 机 制 用 于 保持 数据 的 同步 : ACID 和 BASE, 

具有 ACID 〈 原 子 性 ,一致 性 ， 隔 离 性 和 持久 性 ) 属性 的 保护 机 制 可 以 保证 交 
AWA SE HE | Wikipedia-DB ] 。 许 多 关系 型 数据 库 系 统 (如 基于 SQL) 提供 ACID 
能 力 。 当 事务 的 可 靠 性 和 即时 一 致 性 是 满足 客户 需求 所 必须 时 ， 这 些 机 制 应 该 被 用 
上 ， 然 而 这 些 机 制 可 能 非常 耗费 资源 ， 并 可 能 导致 交易 延 时 。 

BASE (基本 可 用 ， 软 态 ， 最 终 一 致 性 ) 机 制 用 于 保证 最 终 一 致 性 ， 也 就 是 
说 ， 交 易 并 不 要 求 所 有 副本 立即 一 致 。 这 样 可 以 更 简单 ， 需 要 较 少 的 资源 密度 ， 有 
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更 多 的 容错 解决 方案 可 以 使 用 ， 也 非常 适用 扩展 。 许 多 需要 具有 可 扩展 性 的 网 站 和 
电子 邮件 服务 可 以 利用 不 太 复杂 的 BASE 属性 ， 因 为 其 不 必 即 刻 更 新 为 最 新 。 


5.7.3 数据 架构 注意 事项 


应 用 应 该 被 设计 成 能 够 备份 或 复制 持久 应 用 、 用 户 和 企业 的 数据 ， 以 便 在 永久 
性 存储 设备 发 生 故 障 时 ， 可 以 通过 恢复 一 个 含有 数据 副本 的 组 件 实例 或 从 备份 中 恢 
复数 据 而 得 到 减轻 。 易 失 性 状态 信息 应 该 被 存储 在 RAM 中 ， 并 且 在 元 余 组 件 中 备 
份 。 易 失 性 数据 应 该 被 从 应 用 服务 组 件 实例 推送 回 客户 端 〈 如 果 可 能 的 话 ) 或 是 
推送 到 一 个 共享 的 高 可 用 寄存 天 服 务 器 来 最 小 化 组 件 故障 时 用 户 服务 前 溃 的 不 利 影 
啊 。 对 于 高 度 分 布 式 数据 库 ， 较 弱 的 最 终 一 致 性 (BASE) 要 求 应 当 可 以 代替 
ACID， 以 提高 可 扩展 性 。ACID 要 求 确保 整个 数据 的 所 有 副本 的 数据 一 致 性 作为 成 
功 完成 交易 的 一 部 分 ，BASE 不 要 求 数据 即时 更 新 ， 人 允许 所 有 数据 副本 在 被 更 新 之 
前 先 完成 事务 处 理 。 例 如 ， 由 于 网 络 问题 ， 如 果 一 个 特定 的 数据 存储 不 可 用 ， 该 系 
统 的 其 余部 分 可 继续 工作 ， 一 旦 网 络 恢复 可 用 时 ， 再 将 数据 更 新 到 数据 存储 。 


5.8 讨论 


本 节 在 多 个 方面 总 结 四 个 元 余 体系 结构 的 优点 和 针 点 : 

。 服务 质量 的 影响 (第 5. 8. 1 节 ); 

e 并 发 控制 (85.8.27); 

。 资源 使 用 (第 5.8.3 节 ); 

。 简易 性 (第 5.8.4 节 )。 

应 用 架构 师 必须 挑选 最 适合 他 们 设计 目标 并 能 约束 他 们 项 目的 选项 。 


5. 8.1 服务 质量 的 影响 


按 服务 质量 降序 排列 ( 即 从 最 好 到 最 差 )， 这 四 个 架构 是 这 样 : 

1) 并 发 元 余 架 构 可 以 有 效 地 缓解 虚拟 机 故障 对 用 户 服务 的 影响 ， 包 括 : 虚拟 
化 资源 无 法 交付 ， 虚 拟 化 资源 的 退化 交付 ， 尾 部 延迟 ， 时 钟 事件 抖动 和 虚拟 机 分 配 
和 启动 等 缺陷 。 需 要 注意 的 是 ， 并 发 的 宛 余 和 混合 并 发 架构 对 于 时 钟 漂移 是 较为 脆 
弱 的 ， 因 为 如 果 不 同 的 服务 器 有 不 同 的 时 钟 ， 那 么 事件 的 时 间 顺 序 可 能 会 变 得 
混乱 。 

2) 混合 并 发 体系 结构 减轻 了 并 发 元 余 带 来 的 所 有 的 不 利 因 素 ， 但 对 于 一 些 事 
务 ， 增 加 了 服务 延迟 。 

3) 顺序 宛 余 架构 可 以 有 效 缓解 虚拟 机 故障 ， 因 为 这 看 起 来 像 是 传统 的 旨 在 减 
轻 硬件 故障 的 机 制 。 如 果 无 法 交付 虚拟 资源 事件 相对 于 计时 器 超时 所 需 时 间 更 长 ， 
那么 连续 的 宛 余 机 制 可 能 会 启动 ， 以 限制 用 户 业务 的 影响 ; 否则 ， 该 用 户 服务 的 影 
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构 可 能 是 相同 的 。 需 要 注意 的 是 ， 元 余 架 构 的 服务 恢复 不 受 虚拟 机 分 配 和 启动 缺陷 
的 影响 ， 尽 管 对 于 简单 架构 来 说 ， 这 些 问题 会 直接 延长 用 户 的 服务 恢复 时 间 。 

4) 虚拟 化 以 构 缺 陷 对 服务 的 影响 通 稼 会 与 简单 架构 相 比 ， 简 单 架构 往往 是 作 
为 对 比 的 基线 。 通 过 虚拟 机 RaaS 〈 又 名 自 愈 ) 机 制 保护 的 单一 配置 可 以 提高 服务 
的 可 用 性 ， 相 比 本 地 部 署 可 以 显著 地 缩短 服务 恢复 时 间 。 


5.8.2 并 发 控制 


并 行 和 并 发 编程 是 很 难 的 ， 因 为 并 发 进程 或 线程 共享 资源 之 间 的 同步 必须 被 精 
细 控 制 ， 以 防止 一 个 实例 破坏 (例如 被 重 写 ) 另 一 个 实例 的 更 改 。 不 充分 的 并 发 
控制 ， 存 在 数据 被 错误 重 写 的 风险 ， 从 而 导致 不 准确 的 操作 和 对 数据 完整 性 的 破 
坏 。 伴 随 春 过 多 的 并 发 控制 ， 过 度 序列 化 和 和 死 锁 会 使 系统 会 出 现 性 能 瓶颈 。 按 并 发 
性 风险 性 〈 即 低 风 险 到 高 风险 ) 递增 排序 ， 四 个 架构 分 别 为 : 

1) 简单 架构 具有 最 少 的 并 发 风险 ， 因 此 采用 最 简单 的 (因此 最 有 可 能 是 无 缺 
PAR) 的 并 发 控制 可 以 实现 。 毕 竟 ， 不 是 直接 由 其 他 软件 组 件 共享 的 数据 ， 不 要 
求 同 步 机 制 去 保持 整个 组 件 的 一 致 性 。 

2) 顺序 元 余 具 有 适度 的 并 发 性 风险 ， 因 此 按照 设计 ， 并 行 操作 是 受 限 的 。 

3) 因为 根据 设计 ， 混 合并 发 元 余 大 幅 提 升 了 并 发 风险 ,缓慢 的 操作 会 被 其 他 
组 件 实 例 上 的 并 行 执行 操作 所 覆盖 。 重 侠 计 时 器 (Toep) 越 短 ， 更 多 的 并 发 操作 
越 可 能 被 分 配给 多 个 服务 器 实例 。 当 Tos 很 大 时 ， 则 并 发 风险 会 比 顺序 元 余 风 险 
稍 大 一 点 ; 由 于 Toeuw 缩 小 了 并 发 频率 ， 因 此 曝露 并 发 控制 的 风险 会 提升 。 

4) 由 于 设计 原因 ， 并 发 元 余 具 有 最 大 并 发 风险 ， 所 有 的 操作 将 同时 至 少 在 两 
个 组 件 实例 之 间 并 行 地 执行 。 实 际 上 ， 并 发 见 余 架 构 则 在 并 行 执行 相同 的 操作 ， 传 
统 的 同步 方案 ， 如 粗 粒 度 的 互 矿 ( 互 斥 ) 锁 ， 有 可 能 损害 服务 项 量 。 毕 竟 ， 如 果 
这 些 组 件 服务 通过 一 个 单一 的 互 斥 锁 进 行 序列 化 ， 则 同时 加 两 个 或 三 个 组 件 实例 发 
送 请 求 的 价值 将 不 大 。 互 斥 锁 保 证 了 第 一 个 成 功 获取 互 斥 锁 的 组 件 实例 会 首先 被 使 
用 ， 其 他 组 件 实例 则 必须 等 待 互 斥 锁 ， 其 啊 应 会 慢 一 些 ， 从 而 被 丢弃 。 


5.8.3 资源 使 用 


云 计 算 的 一 个 基本 特征 是 资源 的 使 用 是 被 计价 的 ， 较 低 的 资源 使 用 率 可 为 云 用 
户 产生 更 低 的 运营 成 本 。 按 资源 使 用 增 序 排列 ， 四 个 架构 排列 如 下 : 

1) 简单 架构 ; 

2) 顺序 元 余 架 构 ; 

3) 混合 并 发 元 余 架 构 ， 值 得 注意 的 是 ， 混 合并 发 的 实际 上 只 比 顺序 匈 余 多 消 
耗 一 点 点 资源 ; 

4) 并 发 元 余 会 比 顺序 元 余 或 是 混合 元 余 消耗 的 资源 明显 多 得 多 。 
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5.8.4 简易 性 


越 简单 的 系统 越 容 易 在 第 一 时 间 建 立 ， 也 往往 更 可 靠 。 按 简易 性 排列 (从 最 
简单 的 到 最 复杂 的 ) ， 四 个 架构 是 : 

1) 简单 架构 ; 

2) 顺序 元 余 架 构 ; 

3) 并 发 元 余 架 构 ， 因 为 复杂 的 并 发 控制 ; 

4) 混合 并 发 架构 。 实 际 的 并 发 性 风险 随 70,.,, 的 配置 值 而 变化 。 


5.8.5 其 他 注意 事项 


对 于 提高 并 发 元 余 服务 质量 的 热情 会 受到 一 些 实际 问题 的 制约 。 事 实 上 ,， 不同 
的 组 件 可 能 会 根据 成 本 /效益 分 析 结 采 以 不 同 的 速度 发 展 。 

1) 全 面 提高 并 发 元 余 的 效益 ， 需 要 细 粒 度 的 并 发 控制 ， 从 而 多 个 组 件 实例 需 
要 能 够 有 效 地 并 行 服务 相同 的 请 求 。 与 简单 架构 或 顺序 元 余 相 比 ， 不 良 的 结构 化 和 
粗 粒 度 的 并 发 控制 会 产生 非常 差 的 服务 性 能 。 

2) 现 有 的 应 用 协议 可 能 无 法 支持 全 部 的 并 发 操作 。 例 如 ， 现 有 的 应 用 协议 可 
能 不 支持 同时 发 出 多 个 相同 的 请 求 到 不 同 的 组 件 实例 ， 以 及 取消 或 中 止 延迟 的 
响应 。 

3) 客户 端 软件 必须 改变 以 支持 并 发 操作 。 

4) 调试 并 行 编程 的 问题 比 调试 简单 或 传统 (顺序 ) 体系 结构 更 难 。 

试想 一 下 ， 你 的 银行 已 决定 为 自动 取款 机 实施 并 发 元 余 ， 使 每 个 ATM 将 同时 
发 送 每 一 笔 交 易 信 息 到 银行 的 两 个 数据 中 心 。 考 虑 取款 请 求 的 情况 : ATM 将 发 送 
相同 取款 交易 信息 到 两 个 数据 中 心 ， 然 后 ， 当 第 一 个 成 功 啊 应 被 接受 时 ， 发 送 一 个 
取消 请 求 到 较 慢 的 数据 中 心 。 如 果 这 项 服务 的 管理 出 错 ， 你 银行 账户 的 余额 会 发 生 
EZ AYE IG? 
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维基 百科 对 负载 均衡 的 定义 为 “一 种 分 布 式 计算 机 网 络 作 业 的 方法 ， 把 工作 
负载 分 布 在 多 个 计算 机 或 计算 机 集群 ， 网 络 链 路 ， 中 央 处 理 峰 单元 ， 人 磁盘 驱动 带 或 
其 他 资源 上 ， 以 达到 最 佳 的 资源 利用 率 ， 最 大 限度 地 提高 吞吐 量 , 减少 响应 时 间 ， 
并 避免 过 载 ” | Wikipedia-LB ] 。 本 章 回 顾 了 代理 和 非 代理 负载 均衡 技术 的 架构 ， 运 
营 和 服务 质量 问题 。 


6.1 负载 分 配 机 制 


负载 均衡 的 实现 是 通过 在 服务 交付 的 路 径 上 放 入 一 个 中 间 系 统 作 为 代理 或 通过 
机 制 来 实现 的 ， 但 在 服务 的 交付 过 程 中 不 依赖 于 这 一 中 间 系 统 。 
。 代理 负载 均衡 器 ( 见 图 6. 1) 。 在 负载 均衡 代理 中 ， 客 户 “A” 能 看 到 代理 
负载 均衡 器 的 IP 地 址 。 代 理 负载 均衡 顺 负 责 将 客户 端的 请 求 在 服务 大 资源 
池 “Bl1，B2，…，Bm” 上 进行 分 配 ， 作 为 代理 负载 均衡 器 中 的 关键 服务 路 
径 ， 它 们 停机 的 时 候 服 务 也 将 停止 ; 然而， 由 于 代理 服务 器 的 负载 均衡 器 
在 服务 交付 的 路 径 上 ， 它 可 以 收集 工作 负荷 的 相关 指标 和 资源 池 中 所 有 服 
务 髓 实例 的 运行 情况 。 需 要 注意 的 是 ， 尽 管 消息 队列 服务 器 也 提供 负载 均 
衡 功 能 ， 但 在 这 一 章 消息 队列 服务 右 予 以 讨论 。 代 理 负 和 载 均衡 功能 可 以 通 
过 软件 模块 、 具 有 特殊 用 途 的 硬件 ， 以 及 集成 负载 均衡 功能 的 固件 来 实现 。 


向 客户 端 提供 服务 "B” 
的 服务 器 实例 池 








anes 
ees 


oe 
pat 
Ses 


代理 向 客户 端 隐藏 
了 负载 管理 和 分 配 
的 复杂 性 


图 6.1 RENEM A 


。 非 代 理 负载 分 配 占 机 制 是 在 服务 路 径 上 不 插入 额外 的 组 件 。 一 般 非 代理 机 
制 不 添加 服务 的 宕 机 时 间 ， 因 为 它们 没有 在 关键 的 服务 路 径 上 ， 不 能 够 像 
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代理 机 制 一 样 提供 丰富 的 服务 ， 主 要 原因 是 它们 没有 提供 服务 的 路 径 。 非 

代理 负载 分 配 或 均衡 机 制 包括 : 

o 静态 客户 端 配置 : 每 一 个 客户 端 “A” 可 配置 一 个 主 服务 器 实例 的 人 地 
HE (例如,“B1”)。 假 如 主 实例 不 可 用 的 时 候 ， 一 个 或 多 个 备用 实例 
(例如 ,“B2”) 也 可 以 被 配置 好 后 给 客户 端 “A” 使 用 。 

o DNS: 客户 端 通过 DNS 获得 一 个 或 是 多 个 服务 器 实例 IP 地 址 。DNS 服务 
器 可 以 充当 负载 均衡 器 ， 提 供给 客户 端 一 个 或 多 个 基于 指定 域名 的 人 地 
址 。 轮 转 分 布 是 一 种 DNS 服务 器 响应 DNS 域名 请 求 的 技术 。 当 客户 端 向 
DNS 发 送 到 DNS 域名 请 求 时 ，DNS 服务 器 提供 一 个 有 序 的 卫 地 址 列表 来 
响应 请 求 。 列 表 的 顺序 将 会 随 着 每 一 个 用 户 的 请 求 而 改变 ， 并 分 配给 支 
持 按 域名 提供 服务 的 组 件 来 均衡 网 络 流量 。 需 要 注意 的 是 ， 客 户 端 可 以 
决定 选择 列表 中 的 任意 一 个 IP 地址 ， 所 以 不 能 完全 确定 客户 端的 工作 负 
载 实际 是 如 何 分 配 的 。 

o 多 播 卫 地 址 : 客户 端 可 以 使 用 多 播 P 地 址 同时 向 多 个 服务 器 发 送 请 求 ， 
然后 等 待 第 一 个 服务 器 响应 。 这 种 机 制 在 某 些 情况 下 表现 出 色 (例如 ， 
DHCP) ， 但 这 一 机 制 对 路 广域网 的 多 播 却 有 局 限 性 。 

o FER: 客户 端 可 以 使 用 任 播 技 术 在 由 同一 目标 地 址 的 指向 的 一 组 服务 融 
之 内 路 由 到 一 个 单独 节点 。 

o 表征 状态 传输 (REST) : 客户 端 要 维护 任何 状态 信息 都 需要 与 服务 器 通 
过 一 个 标准 接口 进行 信息 交换 ， 交 换 的 对 象 只 是 资源 状态 的 表征 而 不 是 
资源 本 身 。 


6.2 负载 分 配 策略 


客户 端 负载 的 分 配 〈 包 括 对 服务 器 池 或 应 用 组 件 实例 的 分 配 ) ， 可 以 通过 一 些 

基本 策略 来 驱动 ， 主 要 包括 : 

。 静态 配置 : 每 个 客户 端 "“A” 静 态 地 映射 到 一 个 基本 实例 上 (例如 ， 
“B1”) 。 然 后 一 个 或 多 个 备用 服务 器 实例 可 以 有 选择 地 被 配置 。 

。 轮转 法 : 请 求 可 以 统一 通过 正在 运行 的 可 用 服务 需 资 源 池 进 行 平 均 分 配 。 

© 随机 选择 : 请 求 可 以 随机 地 分 布 在 资源 池 中 的 可 用 服务 髓 的 上 。 

。 基于 性 能 : 请 求 会 根据 观察 到 的 服务 器 组 件 实例 的 性 能 进行 分 配 ， 例 如 有 
偶 向 地 分 配 到 有 较 短 服务 延迟 的 服务 器 实例 上 ， 而 不 是 分 布 到 有 更 大 服务 
HEIR WRF te EBL o 

© 基于 状态 : ARBRE THE KRM ARH i SKE BAS 2 AL EA FR Ht 
池 中 ， 除 非 它们 再 次 被 激活 。 

。 启用 流程 编排 : 负载 的 分 配 可 以 整合 到 去 用户 和 云 服务 提供 商 的 业务 流程 


第 6 章 负载 分 配 与 均衡 81 


中 ， 如 计划 维护 ， 发 布 管理 和 将 影响 服务 硕 实 例 的 维护 操作 开始 之 前 把 负 
载 从 这 些 服务 器 实 例 上 移 走 ， 以 及 实例 维护 操作 完成 后 再 重新 开始 分 配 负 
载 给 这 些 实例 。 局 动 业 务 流程 的 负载 分 配 可 以 使 弹性 减退 、 发 布 管理 、 弹 
性 增长 等 导致 用 户 服务 中 断 的 影响 最 小 化 。 


6.3 代理 负载 均衡 器 


如 图 6.2 所 示 ， 代 理 负 载 均衡 具有 以 下 基本 步骤 : 

1) 客户 端 发 送 请 求 到 代理 负载 均衡 需 ; 

2) 负载 均衡 需 选 择 一 个 服务 天 实例 啊 应 客户 问 的 请 求 ; 

3) 负载 均衡 天 转发 客户 端的 请 求 到 选 定 的 服务 硕 实 例 ; 

4) 被 选 定 的 服务 器 实 例 返 回响 应 给 接受 客户 端 请 求 的 负载 均衡 顺 ; 

5) 负载 均衡 融 啊 应 客户 端 ; 

6) 负载 均衡 器 负责 记录 性 能 信息 ， 如 选 定 的 服务 器 实例 的 服务 响应 延迟 ; 

7) 负载 均衡 器 产生 并 存储 的 性 能 信息 将 被 用 来 作为 服务 器 选择 的 依据 ， 以 及 
操作 支持 系统 的 输入 的 依据 。 
i. 客户 端 向 负 


载 均衡 代理 发 
送 请 求 














记录 性 能 信息 





7. 负 载 均衡 器 
记录 的 性 能 信 
息 在 选择 服务 
器 时 会 被 用 以 
做 决策 


图 6.2 代理 负载 均衡 工作 过 程 


负载 分 配 算法 可 以 通过 代理 负载 均衡 器 实现 ， 包 括 在 6.2 市 “负载 分 配 策略 ” 

中 讨论 的 简单 方法 ， 如 负载 分 配 策略 ， 如 轮转 或 是 随机 选择 。 更 为 复杂 的 算法 可 以 
考虑 以 下 一 到 多 个 因素 : 

© 粘 清 会 话 : 一 些 请 求 必须 被 发 送 给 相同 的 组 件 或 实例 ， 该 组 件 或 实例 会 在 

同一 会 话 中 处 理 其 他 请 求 。 在 图 6. 2 中 ， 如 果 服 务 器 “B1” 服务 于 客户 端 
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“A"， 只 要 “B1” 和 它 的 某 些 关键 性 组 件 可 用 ， 所 有 与 该 会 话 相关 的 信息 

都 将 继续 被 发 送 到 服务 大 “Bl 
。 组 件 可 用 性 : 必须 从 可 用 的 组 件 库 中 移 除 不 能 提供 服务 或 不 可 用 的 组 件 。 
© 组 件 资源 利用 : 应 该 合理 分 配 流量 以 实现 可 用 资源 利用 率 的 最 大 化 。 
资源 可 用 性 : 根据 应 用 的 需要 (例如 在 服务 等 级 协议 (SLA) 中 指定 的 ) 
选择 具有 最 多 可 用 资源 (例如 CPU， 内 存 ) 的 服务 器 组 件 。 
组 件 的 当前 负载 : 虽然 负载 分 配 将 以 资源 的 最 大 化 利用 为 标准 ， 但 不 应 导 
致 组 件 超 负荷 运转 、 触 发 过 载 条 件 。 
延 时 : 对 于 最 终 用 户 ， 对 请 求 的 分 配 应 保证 最 小 啊 应 延 时 。 这 可 能 包括 对 
组 件 的 优先 选择 ， 应 选择 到 最 终 用 户 位 置 最 近 且 能 够 最 小 化 传输 延迟 的 
组 件 。 

代理 负载 均衡 器 中 的 关键 服务 路 径 往往 被 设计 成 高 度 可 用 的 ， 因此 通常 以 茶 种 
形式 的 顺 列 元 余 进 行 部 署 。 


6.4 非 代理 负载 分 配 


使 用 非 代 理 负载 分 配 策略 最 常见 的 应 点 用 就 是 DNS。 DNS 负载 均衡 通过 以 下 基 
本 步骤 实现 : 

1) 客户 端 向 DNS 服务 器 发 送 域名 ( 如 www. wikipedia. org) 并 接收 到 指定 给 
该 域名 的 一 个 或 多 个 IP 地 址 。 

2) 客户 端 缓存 地 址 。 

3) 客户 端 使 用 DNS 提供 的 一 个 IP 地 址 发 送 服务 请 求 。 

4) 如 果 服 务 器 不 能 成 功 返 回响 应 给 客户 端 ， 客 户 端 可 以 依据 DNS 最 初 的 反馈 
信息 重 试 请 求 男 一 个 卫 地 址 ， 或 者 客户 端 直 接 重新 从 DNS 请 求 男 一 个 IP 地 址 。 

5) 被 选择 的 服务 器 实例 向 客户 端 返 回响 应 。 

6) 客户 端 继续 使 用 该 服务 器 发 送 与 该 会 话 或 事务 相关 的 其 他 消息 。 

静态 配置 的 分 布 式 应 用 也 很 常见 。 静 态 配置 负载 均衡 有 以 下 基本 步骤 : 

1) 一 个 (或 多 个 ) 服务 器 的 地址 被 明确 写 进 客户 端 设备 的 注册 表 或 配置 
文件 中 。 

2) 客户 端 向 与 服务 相关 联 的 静态 配置 IP 地 址 发 送 服 务 请 求 。 

3) 被 选择 的 服务 器 实例 向 客户 端 返回 响应 ， 客 户 端 继续 使 用 该 地 址 发 送 其 他 
与 该 会 话 或 事务 相关 的 信息 。 

4) 如 果 主 服务 器 响应 超时 ， 且 对 该 主 服务 器 的 连续 重 试 失 败 ， 或 者 最 终 用 户 
已 经 接 到 一 个 错误 反馈 ， 那 么 客户 端 可 以 使 用 一 个 从 〈 备 用) 服务器， 直到 主 服 
务 器 恢复 服务 。 

其 他 非 代 理 负 载 均衡 机 制 ， 比 如 多 播 和 任 播 ， 其 使 用 频率 低 于 DNS 或 静态 配 
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置 。 不 像 代理 负载 均衡 器 ， 非 代理 负载 分 配 一 般 不 在 关键 服务 路 径 上 ， 尤 其 在 静态 
配置 的 情况 下 ,负载 均衡 器 也 不 会 收集 服务 器 的 性 能 指标 来 帮助 决策 。 


6.5 负载 分 配 的 层次 结构 


复杂 的 应 用 通常 是 由 多 层 服 务 和 功能 组 成 ， 负 载 分 配 机 制 和 策略 通常 会 在 每 一 
层 都 有 实现 。 可 以 把 负载 分 配 架 构想 象 成 一 个 web 应 用 : 

。 数据 中 心 层 : 假设 应 用 被 部 署 到 多 个 数据 中 心 (可 能 为 应 对 灾难 恢复 ) ， 那 

么 必须 选择 哪个 数据 中 心 直 接 响应 每 个 客户 端的 请 求 。 这 一 层 的 负载 分 配 
通常 是 通过 DNS ( 非 代理 负载 ) 来 进行 的 。 

。 应 用 实例 层 : 如 果 多 个 应 用 实例 存在 于 单个 数据 中 心 或 是 单个 数据 中 心 的 
不 同 功能 区 ， 那 么 客户 端 必须 指向 一 个 特定 的 应 用 实例 。 这 一 层 的 负载 分 
配 通常 是 通过 DNS ( 非 代理 负载 分 配 ) 进行 的 。 
应 用 前 端 : 单个 应 用 实例 可 能 有 一 个 前 端 服务 器 池 ， 该 资源 池 实 际 上 控制 
HTTP 流量 ， 所 以 每 个 客户 端 请 求 必须 分 配给 一 个 特定 的 前 端 服务 器 实例 。 
这 一 层 的 负载 分 配 通 常 是 通过 代理 机 制 实现 ， 如 传统 的 负载 均衡 器 或 应 用 
程序 分 配 控制 器 。 
应 用 后 端 : 后 端 组 件 实例 实现 业务 逻辑 以 及 数据 库 功能 等 。 可 能 存在 多 个 
后 端 组 件 实例 用 于 实现 容量 、 性 能 和 弹性 管理 。 一 些 负载 分 配 机 制 要 求 必 
须 部 署 前 端 组 件 (如 “客户 ”) 才能 从 后 端 组 件 实例 (如 …“ 服 务 器 ") 那 
里 获得 服务 。 消 息 队 列 服务 器 是 一 个 常见 的 管理 前 端 和 后 端 服务 器 组 件 的 
示例 (不 属于 本 章 讨 论 的 范围 ) ， 非 代理 负载 均衡 机 制 会 在 许多 应 用 中 
采用 。 

需要 注意 的 是 ， 单 一 应 用 也 可 能 需要 在 地 理 上 分 离 的 数据 中 心 上 进行 负载 分 
配 ， 还 可 能 在 同一 的 数据 中 心 的 不 同类 型 的 组 件 实例 上 进行 负载 分 配 。 每 个 负载 分 
配 步骤 可 能 有 某 些 不 同 的 选择 标准 和 限制 ， 因 此 需要 不 同 的 数据 和 不 同 的 实现 
架构 。 


6.6 基于 云 的 负载 均衡 所 面临 的 挑战 


当 应 用 被 部 团 到 云 ， 负载 分 配 比 传统 部 署 变 得 更 为 复杂 ， 因 为 : 

© 随 着 负载 增加 和 减少 ， 需 要 快速 、 弹 性 地 产生 动态 应 用 配置 ， 因 此 负载 均 
衡 希 必须 在 这 个 动态 服务 咒 池 上 分 配 工作 负载 。 

。 基于 使 用 计 费 和 快速 弹性 方式 鼓励 大 量 的 小 型 服务 器 实例 密切 跟踪 所 提供 
的 负载 资源 的 使 用 情况 。 

o 相 比 传统 上 部 署 的 应 用 组 件 ， 虚 拟 化 架构 难 提供 一 致 的 服务 器 实例 吞吐 量 
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和 更 少 的 延 时 ， 所 以 负载 均衡 器 必须 能 够 应 对 服务 器 性 能 动态 变化 的 情况 。 
。 虚拟 化 和 支持 垂直 增长 ， 意 味 着 具有 不 同 吞 吐 量 的 应 用 组 件 实例 可 以 在 应 
用 程序 服务 器 组 件 池 里 共存 ， 所 以 负载 均衡 器 必须 具有 能 够 识别 不 对 称 服 
务 器 组 件 容量 。 
后 面 的 部 分 将 更 详细 地 讨论 这 些 主题 和 在 云 环境 中 面临 的 挑战 。 


6.7 ”负载 均衡 在 支持 元 余 方 面 的 作用 


第 5 章 “ 应 用 程序 元 余 和 云 计 算 ” 主 要 讨论 了 四 种 基本 的 元 余 以 构 策 略 : 简 
单 ， 顺 序 元 余 ， 并 发 元 余 和 混合 并 发 元 余 。 

。 简单 架构 : 根据 定义 ， 负 载 分 配对 于 单个 组 件 是 没有 效果 的 ， 因 为 只 有 一 
个 服务 单元 ; 非 代 理 方法 ， 如 DNS， 通 常用 于 启用 客户 寻找 单个 服务 器 
实例 。 

© 顺序 元 余 : 智能 代理 负载 均衡 器 通过 自动 检测 故障 的 实例 或 不 可 用 服务 此 
实例 ， 以 及 只 给 可 用 的 服务 器 实例 发 送 流量 ， 实 现 了 基本 的 顺序 元 余 。 而 
复杂 性 则 出 现在 下 列 情况 中 : 

1 ) 服务 邢 实 例 放 障 而 此 时 有 一 个 或 多 个 客户 端 请 求 正在 等 竺 。 

2) 对 失效 服务 占 实 例 的 毫 无 反应 意味 着 负载 均衡 器 没有 查 觉 到 组 件 故 障 。 

为 了 减轻 负载 均衡 器 的 复杂 性 可 以 设置 一 个 计时 器 。 如 果 在 计时 器 规定 的 时 间 

间隔 内 没有 收 到 啊 应 ， 可 以 多 次 重 试 请 求 ， 或 返回 一 个 错误 消息 给 发 出 请 求 的 客户 
端 。 负 载 均 衡器 会 收集 未 响应 服务 器 的 实例 性 能 指标 和 发 送 服 务 器 实例 故障 的 警报 
指示 ， 并 从 可 用 实例 的 资源 池 中 删除 此 服务 器 实例 。 

。 并 发 元 余 : 对 于 并 发 元 余 ， 代 理 负 载 均 衡器 可 以 预先 行使 客户 端的 角色 ， 
发 送 请 求 到 多 个 服务 器 实例 并 选择 “最 好 ”的 响应 返回 到 发 出 原始 请 求 的 
客户 端 。 正 如 5. 5 节 所 解释 的 ， 选择“ 最 好 ”的 响应 有 时 会 被 延迟 啊 应 或 
冲突 响应 。 

© 混合 并 发 元 余 : 混合 并 发 元 余 代理 负载 均衡 器 能 承担 将 每 个 客户 端的 开始 
请 求 发 送 给 服务 顺 实 例 的 角色 。 如 果 在 重 权时 间 (Tovi) 内 接收 到 一 个 成 
功 的 服务 器 实例 的 响应 ， 那 么 它 将 被 发 送 回 请 求 客户 端 。 否 则 ， 负 载 均衡 
器 将 请 求 发 送 给 男 一 个 服务 器 实例 。 无 论 哪 一 个 服务 器 实例 返回 响应 ， 首 
TCH RS GAS, Rae RIGS Phin 
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如 图 6. 3 所 示 ，DNS 通常 用 于 在 一 系列 数据 中 心 和 可 用 区 域 上 分 配 负载 。 如 果 
整个 数据 中 心 不 可 用 (如 发 生 灾难 事件 ) ， 那 么 负载 就 可 以 通过 重新 配置 DNS 而 定 
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向 分 配 到 另 一 个 数据 中 心 上 。 关 于 灾难 恢复 更 多 细节 ， 请 参见 第 10.5 节 ,“ 灾 难 恢 
复 和 地 理 见 余 ”。 









:名义 上 地 理 
; ”位置 相距 
: 1000 英 里 


图 6.3 在 空间 与 可 用 区 域 间 进行 负载 均衡 


6.9 工作 负载 服务 度量 


代理 负载 均衡 器 能 够 监控 和 收集 提供 给 客户 端的 负载 的 数据 ， 以 及 服务 器 实例 
库 里 实例 的 性 能 数据 。 这 些 数据 可 用 于 帮助 做 出 更 好 的 负载 分 配 决策 : 

© 弥补 单个 服务 器 组 件 的 性 能 不 足 (第 6. 10. 3 节 ); 

o 负载 增加 时 触发 弹性 增长 (第 8.5 节 ); 

© 负载 减少 时 触发 弹性 逆 增 长 (第 8.5 节 )。 

为 了 测量 负载 均衡 的 有 效 性 ， 负 载 均 衡器 会 在 一 个 给 定 的 时 间 间 隔 内 (如 5、 
15 、30 分 钟 ) 收集 资源 池 中 每 个 服务 器 实例 的 性 能 测量 数据 : 

© 负载 均衡 回回 服务 器 实例 发 送 的 请 求 数量 ; 

。 服务 器 实例 返回 负载 均衡 器 的 故障 响应 数量 ; 

。 负载 均衡 器 检测 到 的 超时 隐 人 性 故障 数量 ; 

© 客户 机 和 服务 器 实例 之 间 的 响应 延迟 ， 通 常 这 都 是 比较 典型 的 〈 如 平均 值 ) 

和 一 些 尾 部 方差 延迟 (98 2.5.2.2 4); 

© 部 分 满足 延 返 需求 的 请 求 〈 例 如 依据 策略 制定 的 ) 。 

负载 均衡 器 应 能 提供 操作 支持 系统 (0SS) 或 虚拟 机 服务 器 控制 器 (VMSC) 
的 相关 指标 ， 因 为 : 

1) 指标 是 供 代理 负载 均衡 器 用 来 决定 如 何 分 发 客户 机 请 求 的 依据 。 

2) 指标 将 用 于 触发 靖 值 警报 来 触发 弹性 增长 等 。 

3) 指标 作为 OSS 做 好 网 络 /容量 的 规划 和 操作 的 绩效 管理 数据 。 
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需要 注意 的 是 ， 增 长 和 逆 增 长 活动 可 以 通过 策略 和 工作 流程 手动 或 自动 触发 。 
指标 可 以 通过 0SS 在 具有 所 需 接口 的 组 件 之 间 推 拉 。 


6.10 ”操作 注意 事项 


6.10.1 负载 均衡 与 弹性 


代理 负载 均衡 和 弹性 在 以 下 几 种 方式 上 相互 关联 : 

o 6.9 PHA, 负载 均 衡器 可 以 收集 并 转发 性 能 指标 给 OSS 或 VMSC， 指 
导 正在 处 理 业 务 的 服务 硕 实 例 的 流量 规模 ， 并 且 负 载 均衡 器 还 可 以 提供 能 
够 触发 资源 增长 或 逆 增 长 的 容量 预测 。 

© 当 服 务 胡 实例 在 弹性 增长 期 间 被 添加 到 负载 均衡 池上 ， 应 当 通 知 负 载 均衡 
名 这 一 变化 ， 并 且 将 流量 分 配 到 新 的 服务 右 实 例 上 。 这 将 通过 更 新 资源 池 
达到 重新 均衡 。 

。 负载 均衡 器 可 以 通过 减少 服务 右 实 例 上 的 流量 以 实现 道 增长 ， 并 且 可 以 引 
导 新 的 流量 加 载 到 资源 池 中 剩余 的 服务 器 实例 上 。 一 旦 服务 器 实例 的 流量 
被 成 功 阻 断 ， 它 就 会 被 作为 逆 增 长 过 程 的 一 部 分 从 服务 上 需 实 例 池 中 移 除 ， 
并 且 负 载 均 衡 需 将 不 再 分 配 新 的 流量 到 该 服务 硕 实 例 上 。 请 注意 ， 这 种 方 
法 类 似 于 6. 10. 3 节 中 介绍 的 用 于 支持 发 布 管理 的 方法 。 

© 为 了 回 外 扩展 ， 负 载 均衡 需 可 以 转发 流量 到 另 一 个 不 同 的 数据 中 心 的 负载 
KHIMAR E o 

第 8 章 “ 容 量 管理 ”将 详细 介绍 弹性 。 


6.10.2 负载 均衡 与 过 载 


每 个 虚拟 机 实例 的 服务 容量 都 是 有 限 的 ， 代 理 负载 均衡 器 的 主要 功能 是 确保 负 
载 被 分 配 到 可 用 的 服务 器 实例 地 上， 并 且 这 些 实例 受 负载 均衡 器 本 身 所 控制 。 如 果 
负载 均衡 的 资源 池 达 到 或 超出 其 预 设 容量 ， 那 么 负载 均衡 器 实例 对 后 续 客 户 端 请 求 
有 以 下 几 种 处 置 选择 : 

© 继续 分 配 请 求 到 资源 池 中 活动 的 服务 器 实例 上 ， 让 它们 执行 过 载 机 制 。 

。 删除 请 求 ， 直 到 已 经 不 再 过 载 。 

e 回 送 客户 端 一 个 错误 信息 ， 表 示 已 经 过 载 (如 “TOO BUSY”). 

除了 能 够 管理 过 载 的 服务 器 实例 池 外 ， 代 理 负 载 均衡 器 还 可 以 通过 以 下 两 点 组 
解 过 载 情 况 : 

。 引导 流量 远离 过 载 的 服务 顺 实 例 并 局 用 备用 服务 实例 。 

o 对 云 OSS 发 出 过 载 报警 ， 从 而 局 动 另 一 个 已 就 绪 的 应 用 实例 来 实现 弹性 容 

量 增长 或 重新 均衡 负载 。 
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值得 注意 的 是 ， 负 载 均衡 器 本 身 也 可 能 进入 过 载 状 态 。 众 所 周知 ， 如 采 巨 大 的 
吞吐 量 通 过 单个 TCP 套 接 字 运 行 ，TCP 套 接 字 会 表现 不 佳 ， 即 使 使 用 指数 级 的 退 
避 算 法 也 无 济 于 事 。 为 了 保持 正常 运作 ， 过 载 控 制 机 制 必须 引入 负 载 均 衡器 本 身 。 


6.10.3 负载 均衡 与 发 布 管理 


正如 9.5 节 中 所 讨论 的 ， 代 理 负载 均衡 器 在 支持 发 布 管理 上 可 能 是 非常 有 用 
的 ， 可 以 支持 如 下 操作 : 

© 积极 均衡 每 个 应 用 服务 的 工作 负载 。 

© 当 从 老 的 版 本 排出 工作 流量 时 ， 负 载 均 衡器 必须 跟踪 现 有 会 话 ， 引 导 新 的 
工作 流量 到 运行 新 版 本 的 服务 器 实例 上 ， 并 发 送 与 现 有 会 话 相 关 的 工作 流 
量 到 当前 活动 服务 器 实例 上 进行 会 话 处 理 ， 即 使 这 些 会 话 仍 是 旧版 本 的 。 
注意 ， 逆 增长 阶段 也 可 以 使 用 相同 的 流量 排出 过 程 。 

。 为 配合 “街区 聚会 ”类 型 的 软件 升级 (09.3.1 节 )， 当 多 个 版 本 的 应 用 
实例 是 活动 的 并 且 有 可 用 的 流量 时 ， 负 载 均衡 将 基于 策略 和 版 本 信息 分 配 
负载 。 

。 为 配合 “每 车 一 司机 ”类 型 软件 升级 ( 见 9.3.2 节 )， 负 载 均 衡 将 把 负载 
分 配给 活动 的 应 用 实例 。 虽 然 一 次 只 有 一 个 版 本 是 活动 的 ， 但 某 一 时 段 流 
量 可 能 会 被 转移 到 同时 活跃 的 多 个 版 本 上 ， 并 且 流 量 需 要 被 分 配 到 正确 的 
版 本 上 。 


6.11 负载 均衡 与 应 用 程序 服务 质量 


代理 负载 均衡 在 应 几 用 程序 服务 质量 方面 的 潜在 影响 有 以 下 几 点 : 

° 服务 可 用 性 (第 6.11.1 79); 

e 服务 延迟 (第 6.11.2 节 ); 

。 服务 可 靠 性 (第 6.11.3 47); 

e 服务 可 访问 性 (第 6.11.4 市 ); 

© 服务 可 维持 性 (第 6.11.5 节 ); 

。 服务 吞吐 量 (86.11.67); 

e 服务 时 间 惟 精度 (第 6.11.7 节 )。 

注意 ， 在 这 种 情况 下 ， 非 代理 负载 均衡 可 以 提供 支持 ， 下 面 章节 会 进一步 
说 明 。 


6.11.1 服务 可 用 性 


代理 负载 均衡 在 服务 可 用 性 上 具有 积极 的 影响 ， 主 要 表现 在 : 
。 监测 资源 池 中 服务 器 实例 的 可 用 性 ， 并 引导 流量 到 活动 的 服务 器 实例 。 
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© 基于 采集 的 资源 可 用 性 指标 监控 服务 器 实例 的 健康 程度 ， 并 引导 流量 到 有 
充足 资源 的 服务 器 实例 上 。 

。 重新 将 失败 的 请 求 路 由 到 另 一 个 服务 器 实例 。 请 求 可 能 会 显 式 地 得 到 一 个 . 
表示 失败 的 错误 信息 ， 也 可 能 隐 式 地 通过 由 负载 均衡 器 管理 的 计时 器 超时 
获得 反馈 。 

代理 负载 均衡 器 可 能 在 服务 可 用 性 方面 产生 负面 影响 ， 因 为 : 

© 负载 均衡 器 成 为 服务 路 径 上 男 一 个 关键 因素 ， 必 须 被 包括 在 应 用 服务 的 可 
用 性 计算 里 。 

。 负载 均衡 器 成 为 一 个 单 点 故障 ， 所 以 必须 被 元 余 以 提高 可 用 性 。 

。 负载 均衡 器 进入 过 载 。 

如 果 弹 性 增长 机 制 无 法 激活 或 无 法 被 及 时 、 正 确 地 执行 ， 那 么 用 户 流量 可 能 出 

现 过 载 控制 的 现象 (如 “TOO BUSY”) 错误 而 无 法 正常 提供 服务 。 对 这 一 问题 的 
问 责 是 复杂 的 ， 将 在 11.4 节 “ 问 责 案例 研究 ”中 讨论 。 


6. 11.2 服务 延迟 


代理 负载 均衡 对 服务 延迟 可 以 产生 积极 影响 : 
。 收集 测量 池 中 每 个 服务 器 实例 的 响应 延迟 指标 ， 使 用 这 些 数据 来 直接 引导 
负载 到 能 够 满足 啊 应 需求 的 服务 器 上 。 
© 支持 并 发 元 余 〈 如 果 可 能 ) ， 以 确保 及 时 响应 客户 端 。 
非 代 理 负 载 均 衡 可 以 通过 配置 离 发 出 请 求 的 客户 端 位 置 最 近 的 服务 器 实例 
(如 基于 传输 时 间 ) ， 来 对 服务 延迟 进行 积极 干预 。 同 时 非 代 理 负 载 均 衡 还 可 以 增 
加 获取 数据 的 延迟 。 


6.11.3 服务 可 靠 性 


代理 负载 均衡 可 以 在 服务 可 靠 性 上 产生 积极 影响 ， 方 法 是 监控 服务 器 的 资源 使 
用 情况 、 引 导 流 量 到 有 充分 资源 来 处 理 请 求 的 服务 器 上 (如 基于 SLA 规范 ) 和 不 
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同样 ， 代 理 负载 均衡 可 能 引入 故障 ， 因 此 在 服务 可 靠 性 方面 会 产生 负面 影响 。 


6.11.4 ”服务 可 访问 性 


当 服 务 可 用 时 ， 代 理 负载 均衡 对 服务 的 可 访问 性 方面 也 有 类 似 的 积极 影响 : 

。 监控 资源 池上 服务 器 实例 的 可 用 性 和 引导 工作 流量 到 活动 的 服务 器 实例 上 。 

。 通过 收集 可 用 资源 指标 监控 服务 器 实例 的 健康 情况 ， 引 导 流 量 分 配 到 有 足 
够 的 资源 来 应 对 负载 的 服务 器 实例 上 。 

。 重新 将 失败 的 请 求 路 由 到 另 一 个 服务 器 实例 。 请 求 失败 可 能 会 伴 有 一 个 显 
式 的 错误 信息 ， 也 可 能 只 是 隐 式 地 表现 为 由 负载 均衡 器 维护 的 定时 需 超 时 。 
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当代 理 负 载 均衡 自身 无 法 被 访问 时 ， 代 理 负 载 均衡 对 服务 可 访问 性 可 能 造成 负 
面 影响 。 


6.11.5 服务 可 维持 性 


代理 负载 均衡 可 以 对 服务 可 维持 性 产生 积极 影响 ， 方 法 是 提供 会 话 “ 粘 请 - 
功能 ， 即 发 送 所 有 与 同一 会 话 或 事务 相关 联 的 请 求 到 同一 个 服务 器 上 。 如 果 该 服务 
器 不 可 用 ， 负 载 均 衡器 会 继续 跟踪 该 服务 器 ， 并 且 引 导 请 求 到 可 以 访问 会 话 数据 、 
可 以 维持 服务 的 备用 服务 器 上。 

代理 负载 均衡 自身 的 故障 ， 会 对 服务 可 维持 性 产生 负面 影响 ， 从 而 影响 用 户 服 
务 交 付 。 需 要 注意 的 是 ， 一 些 负载 均衡 器 可 能 无 法 长 期 维持 持久 会 话 信 息 〈 例 如 
会 话 信息 持续 数 天 ) 。 


6.11.6 服务 吞吐 量 


代理 负载 均衡 可 以 通过 调整 过 载 条 件 的 方式 管理 负载 ， 从 而 对 服务 吞吐 量 产生 
积极 影响 ， 例 如 
。 路 由 负载 服务 器 必须 有 足够 的 容量 ， 也 就 是 说 ， 不 会 过 载 。 
。 i] OSS 或 服务 工作 流 提供 指标 ， 以 表明 需求 ; 
o 增加 额外 的 实例 来 提供 额外 的 服务 容量 。 
o 把 实例 移动 到 有 更 多 可 用 资源 的 服务 器 上 。 
由 于 可 以 成 为 一 个 瓶颈 或 是 无 法 处 理 已 分 配 到 的 流量 ， 代 理 负 载 均 衡 可 能 对 服 
务 吞 吐 量 造 成 负面 影响 。 


6.11.7 ”服务 时 间 惟 精度 
不 管 代 理 还 是 非 代理 负载 均衡 机 制 对 服务 时 间 戳 精度 都 没有 影响 。 
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高 可 用 性 系统 在 设计 上 通过 自动 检测 ， 故 障 容 器 以 及 从 不 可 避免 的 故障 中 恢复 
等 机 制 ， 保 证 单个 故障 不 会 导致 不 可 接受 的 用 户 服务 中 断 。 虚 拟 化 技术 和 云 计 算 创 
造 的 故障 容 右 架构 ， 比 传统 架构 更 为 强大 ,但 也 引入 了 新 的 风险 。 第 7.1 节 “ 故 
障 容器 ”中 对 故障 容器 给 出 了 一 个 解决 方法 ，7.2 节 “ 故 障 点 ”中 对 传统 部 署 风险 
和 云 迁移 技术 给 出 了 一 个 解决 方法 。 本 章 在 7.3 节 “ 极 端 共 存 解 决 方案 ”和 7.4 节 
“多 租户 与 解决 方案 容器 ”有 结论 方面 的 内 容 。 


7.1 ARRA 


故障 容器 就 像 船上 的 水 密 舱 : 它 限 制 故 障 的 影响 (例如 船体 上 出 现 的 一 个 洞 ) 
给 管理 和 控制 功能 (例如 对 于 船 来 说 相当 于 船长 和 船员 ， 对 于 应 用 来 说 相当 于 高 
可 用 性 的 中 间 件 ) 一 个 稳定 的 平台 以 指导 服务 恢复 措施 。 故 障 容器 可 以 解释 为 以 
下 几 个 概念 : 
© 故障 级 联 (第 7.1.1 和 节 ): 容 吕 能够 阻止 故障 级 联 。 
© 故障 容 名 和 恢复 〈 第 7.1.2 节 ): 一 个 故障 容 需 通常 定义 为 一 个 用 于 故障 恢 
复 的 单元 。 
© 故障 容 估 和 虚拟 化 〈 第 7.1.3 节 ): 虚拟 化 技术 使 故障 容器 比 传统 硬件 部 署 
的 方式 有 更 大 的 灵活 性 。 


7.1.1 故障 级 联 


故障 被 定义 为 “(1) 硬件 设备 或 组 件 中 的 缺陷 ， 例 如 一 个 短路 或 断 线 。 (2) 不 
正确 的 步骤 、 过 程 ， 或 在 计算 机 程序 中 错误 的 数据 定义 ”。 错 误 通 常 被 定义 为 计 
F, 观察， 测量 值 或 条 件 与 真正 的 、 指 定 的 或 理论 上 正确 的 值 或 状态 的 差异 。 例 
如 ， 计 算 结 果 和 正确 结果 相差 30m。 失 效 的 定义 是 “一 个 系统 或 组 件 无 法 执行 其 所 
在 特定 的 性 能 要 求 下 的 功能 ”。 故 障 被 认为 是 被 激活 的 ， 会 导致 错误 ， 错 误会 导致 
失效 。 例 如 ， 一 个 软件 缺陷 〈 故 障 ) 在 一 个 do/while 循环 中 被 激活 ， 导 致 一 个 无 
限 循 环 的 错误 ， 这 会 阻止 系统 在 规定 时 间 内 产生 一 个 用 户 服 务 请 求 应 答 ， 这 将 导致 
产生 服务 失效 。 

如 果 一 个 系统 不 能 包容 初始 故障 ， 那 么 可 以 会 触发 一 个 级 联 的 二 次 故障 。 这 些 
概念 很 容易 通过 例子 来 说 明 ， 例 如 在 船上 的 水 密 舱 。 船 体 上 的 洞 是 一 个 被 激活 的 故 
障 ， 当 洞 在 水 线 以 下 〈 如 果 船 在 船坞 ， 故 障 不 是 问题 ) ; 水 流 进 船 里 就 是 “错误 o 
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设计 良好 的 船舶 将 包含 一 个 水 密 隔 舱 ， 以 防止 水 进入 导致 船 沉 没 ， 即 使 只 有 一 个 的 
水 密 舱 ， 船 舶 也 能 保持 足够 的 浮力 仍 能 行驶 。 如 果 水 进入 了 水 密 舱 ， 将 最 终 导致 浮 
NEREK, WAV 〈 灾 难 性 故障 ) 。 因 此 ， 一 个 没 被 包含 的 故障 可 以 级 联 浴 在 
的 小 事件 ， 随 着 时 间 的 推移 ， 可 能 会 导致 灾难 性 故障 。 应 用 故障 容 右 应 严格 限制 对 
服务 的 影响 程度 。 例 如 ， 一 个 小 孔 ， 不 应 使 船 下 沉 ， 单 个 的 缺陷 ， 如 内 存 泄漏 ， 不 
应 该 让 所 有 用 户 产 生 总 的 服务 中 断 。 


7.1.2 故障 容 居 与 恢复 


对 于 故障 容 需 以 下 几 点 非常 重要 : 
。 通过 提供 一 个 屏障 来 隔离 故障 的 影响 ， 防 止 故 障 的 级 联 。 


启动 有 限 的 服务 补救 措施 。 启 动 有 限 的 服务 补救 措施 可 以 使 部 分 能 力 或 功 
能 出 现 的 问题 被 修正 ， 而 不 需要 影响 所 有 的 用 户 或 功能 。 例 如 ， 虽然 大 多 
数 软 件 故 障 可 以 通过 重新 启动 整个 应 用 程序 来 清除 (从 而 影响 100% 的 活 
动用 户 ) ， 但 特定 的 模块 或 进程 中 包含 的 故障 ， 可 以 通过 恢复 特定 模块 来 清 
除 ， 从 而 名 义 上 仅 影响 部 分 用 户 和 功能 。 由 于 服务 的 停机 时 间 一 般 与 容量 
的 损失 或 受到 的 影响 成 正比 ， 如 果 一 个 架构 从 故障 事件 中 恢复 需要 影响 
10% 的 活动 用 户 ， 那 就 远 比 一 个 需要 影响 100% 的 活动 用 户 的 架构 要 好 。 
提供 一 种 回 退 机 制 : Netflix 公司 引入 了 一 个 “断路 机 制 ” 的 概念 ， 即 如 果 
一 个 关键 的 故障 被 检测 到 ， 对 故障 部 件 的 所 有 连接 将 被 断 开 ， 回 退 机 制 被 
启动 。 如 果 一 个 到 外 部 数据 存储 器 的 连接 已 断 开 或 者 返回 错误 信息 到 客户 
端 ， 回 退 机 制 就 可 以 像 使 用 本 地 数据 一 样 。 回 退 可 以 定制 ， 可 以 向 客户 提 
供 某 种 类 型 的 可 接受 的 服务 或 给 客户 端 发 送 通知 。 在 许多 情况 下 ， 失 效 后 
快速 恢复 到 另 一 个 实例 或 实例 化 一 个 新 的 实例 可 能 是 最 简易 的 选择 。 

维护 可 用 性 需求 : 确保 在 线 保留 充足 的 容量 以 满足 服务 可 用 性 承诺 ， 哪 怕 
单个 组 件 出 现 了 故障 也 不 要 紧 。 例 如 ， 应 用 服务 水 平 协议 规定 按 死机 票 计 
时 间 计 算 服务 质量 ， 当 超过 10% 的 服务 由 于 故障 被 丢弃 ， 那 么 将 故障 对 用 
户 的 影响 容器 在 10% 以 内 ， 可 以 防止 故障 升级 为 收费 的 服务 停机 。 


分 布 式 应 用 在 建立 时 ， 传 统 上 会 按 故障 容 表 的 层次 建立 ， 按 从 最 小 到 最 大 顺序 
依次 是 : 


BH: 传统 上 ， 事 务 会 提供 严格 的 数据 库 操作 控制 。 中 止 一 个 等 待 的 事务 
可 以 清除 所 有 被 中 止 的 操作 的 痕迹 从 而 包含 故障 事件 。 

客户 端 请 求 : 客户 端 和 服务 需 的 分 布 式 应 用 通常 是 这 样 设计 的 : 个 人 的 请 
求 可 以 失败 ， 不 需要 在 意 客 户 端 会 话 。 例 如 ， 一 个 应 用 程序 编程 接口 ( Ap- 
plication Programming Interface, API) 调用 失败 可 能 有 各 种 各 样 的 原因 (Al 
如 用 户 没有 授权 ， 没 有 找到 资源 或 系统 忙 ) ， 应 用 程序 将 继续 正常 工作 ， 尽 
管 通过 API 返回 一 个 错误 。 请 求 失败 一 般 返 回 给 客户 端 或 者 用 户 ， 客 户 端 
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或 者 用 户 修 改 后 可 以 重新 提交 到 服务 器 。Web 浏览 絮 的 取消 和 重新 加 载 功 
能 是 在 客户 端 请 求 层面 实现 了 故障 容 需 功能 。 
客户 端 会 话 : 如 果 一 个 用 户 会 话 已 损坏 ， 那 么 用 户 往 往 会 放弃 它 ， 开 始 一 
个 新 的 会 话 。 例 如 ， 如 果 电 影 或 电话 流 变 成 不 可 接受 的 服务 ， 那 么 用 户 往 
往 会 终止 会 话 并 重新 播放 电影 或 重 拨 电 话 。 
软件 进程 严重 的 软件 问题 一 般 都 包含 在 一 个 单一 的 软件 进程 中 。 读 者 无 
疑 是 熟悉 PC 应 用 程序 挂 起 机 制 的 ， 它 必须 通过 操作 系统 的 任务 管理 器 终 
止 ， 然 后 应 用 程序 可 以 重新 局 动 ， 恢 复 正 常 的 运行 。 
应 用 组 件 : 应 用 一 般 由 很 多 组 件 〈 例 如 前 端 、 应 用 程序 和 数据 库 ) 组 成 ， 
一 个 组 件 级 故障 通常 被 包含 在 该 组 件 内 ， 它 可 以 使 用 目 身 的 元 余 机 制 进行 
恢复 而 不 会 影响 应 用 服务 。 
© 操作 系统 实例 : 更 严重 的 软件 问题 可 能 需要 整个 操作 系统 重新 局 动 。 训 无 
疑问 ， 许 多 读者 都 熟悉 通过 通 断 电 来 重新 启动 有 线 调 制 解 调 器 操作 系统 ， 
从 而 恢复 住宅 宽带 服务 。 
© 分 布 式 应 用 程序 实例 : 分 布 式 系 统 最 严重 的 故障 可 能 在 修复 措施 执行 之 后 
(例如 重新 加 载 或 修复 受 损 的 配置 数据 ) ， 需 要 所 有 操作 系统 和 应 用 程序 中 
的 所 有 组 件 实例 重新 局 动 。 
可 用 区 域 或 数据 中 心 : 可 用 区 域 或 数据 中 心 能 够 最 好 地 支持 故障 容器 ， 它 
们 被 设计 成 能 够 限制 灾难 事件 〈 如 地 震 ) 对 服务 的 影响 ， 因 为 地 震 等 灾难 
事件 可 以 使 数据 中 心 不 可 用 或 无 法 访问 。 灾 难 恢 复 机 制 在 设计 要 严格 地 将 
故障 控制 在 一 个 可 用 区 域 或 云 数据 中 心 来 ， 以 此 保证 应 用 服务 可 以 及 时 恢 
复 ， 尽 管 受 故障 现场 或 受 故障 影响 的 区 域 的 所 有 的 应 用 软件 和 数据 可 能 无 
限期 的 不 可 用 或 无 法 访问 。 地 理 元 余 ， 依 赖 于 数据 中 心 的 物理 分 离 ， 确 保 
个 人 不 可 抗力 事件 ， 如 地 震 ， 不 会 影响 多 个 数据 中 心 。 
另 一 方面 严格 将 故障 控制 在 一 个 事务 中 ， 尽 管 出 现 故障 ， 所 有 其 他 组 件 的 会 话 
或 进程 必须 能 继续 运行 并 能 够 提供 可 以 接受 的 服务 质量 。Netflix 公司 给 这 个 强大 的 
功能 一 个 有 趣 的 名 字 “ 兰 博 染 构 ” 并 称 之 为 “每 个 系统 都 应 能 够 成 功 ， 无 论 如 何 ， 
即使 … 每 个 分 布 式 系统 必须 容忍 它 所 依赖 的 其 他 系统 的 故障 "。 毕 竟 ， 一 部 分 功能 
的 中 断 最 多 只 会 让 用 户 感到 服务 下 降 ， 但 仍 是 可 接受 的 ; 而 全 部 功能 的 中 断 会 使 用 
户 感到 上 自己 置 于 完全 被 抛弃 的 境地 。 


7.1.3 故障 容器 与 虚拟 化 


虚拟 化 可 以 启动 比 本 地 部 署 更 为 强大 的 故障 容 顺 机 制 ， 因 为 虚拟 机 (VM) 的 
资源 配置 不 再 是 由 底层 硬件 严格 定义 。 虚 拟 化 使 架构 师 可 以 灵活 地 根据 应 用 的 要 求 
选择 虚拟 机 实例 的 大 小 ， 这 要 比 使 用 本 地 硬件 灵活 得 多 。 例 如 ， 茶 个 应 用 ， 可 以 配 
置 为 100 个 用 户 提 供 服 务 ， 那 么 可 以 选择 使 用 一 个 的 “大 ”的 虚拟 机 实例 ， 或 都 
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使 用 10 个 “小 ”虚拟 机 实例 。 假 设 相同 的 应 用 程序 和 操作 系统 软件 同时 运行 于 大 
的 、 小 的 虚拟 机 实例 ， 无 论 虚拟 机 大 小 ， 软 件 失效 率 是 相同 的 。 进 一 步 假设 ， 应 用 
软件 故障 之 间 的 平均 时 间 (MTBF) 为 1 年， 故障 事件 有 一 个 平均 服务 恢复 时 间 
(MTRS) 为 20min。 那 么 ， 典 型 大 虚拟 机 实例 的 配置 经 验 是 ， 所 有 100 个 用 户 每 年 
一 次 20min 的 中 断 时 间 。 典 型 的 小 型 虚拟 机 实例 的 配置 经 验 是 ， 每 年 10 次 中 断 事 
件 〈 每 次 会 影响 全 部 10 个 小 虚拟 机 实例 ) ， 并 且 这 些 事件 累计 发 生 20min， 每 次 会 
影响 小 的 虚拟 机 实例 服务 的 10 个 用 户 。 然 而 ， 由 于 10 个 被 影响 的 用 户 只 有 100 个 
用 户 的 10% ， 小 的 虚拟 机 实例 的 中 断 会 损失 10% 的 容量 ， 而 10% 的 容量 累计 损失 
20min 相当 于 所 有 服务 2min 的 中 断 时 间 。10 个 小 的 虚拟 机 实例 每 年 中 断 时 间 (每 
次 累加 ， 相 当 于 2min 所 有 服务 死机 时 间 ) 与 大 的 虚拟 机 每 年 一 次 20min 的 总 服务 
中 断 时 间 是 相同 的 。 因 此 ， 改 变故 障 容 需 的 容量 〈 大 小 ) 一 般 不 影响 服务 可 用 性 ， 
虽然 复杂 度 增 加 了 ， 可 能 只 会 使 MTBF 略 有 下 降 。 

然而 容器 容量 的 大 小 不 大 可 能 对 故障 率 、 恢 复 时 间或 按 比例 分 配 的 服务 可 用 性 
产生 重大 影响 ， 但 确实 会 影响 每 次 中 断 事 件 的 用 户 数量 ， 有 时 也 被 称 为 “故障 足 
迹 ”。 故 障 足迹 实际 上 是 具有 实际 意义 的 非常 重要 的 属性 。 如 果 一 部 分 用 户 (也 许 
只 有 一 个 ) 的 服务 受到 故障 影响 ， 服 务 恢 复 是 以 普通 优先 级 进行 的 。 如 果 非 常 多 
的 用 户 量 被 故障 事件 所 影响 ， 那 么 服务 恢复 工作 会 设 为 紧急 。 在 一 些 地 方 ， 东 些 服 
务 可 能 需要 向 政府 监管 机 构 正 式 地 报告 故障 事件 的 的 细节 〈 例 如 在 美国 电信 中 断 
事件 会 向 美国 联邦 通信 委员 会 报告 ) ， 既 增加 了 成 本 又 增加 了 管理 服务 提供 商 的 风 
险 。 就 像 建 议 孩 子 们 不 要 把 所 有 的 鸡蛋 放 在 一 个 篮子 里 一 样 ， 应 用 服务 提供 商 不 要 
把 他 们 所 有 的 用 户 放 到 一 个 组 里 。 

如 果 极 端 地 把 每 个 用 户 放 到 一 个 单独 的 组 里 (例如 由 单独 的 专用 虚拟 机 实例 提 
供 服务 ) 需要 大 量 的 资源 开销 ， 从 层次 上 看 对 大 量 不 同类 别 的 应 用 来 说 是 不 可 行 的 。 
因此 ， 架 构 师 在 确定 容器 容量 时 ， 必 须 同 时 最 大 限度 地 减少 故障 足迹 和 资源 消耗 。 

值得 注意 的 是 ， 组 件 的 太 寸 《例如 每 个 组 件 实例 能 够 文 持 的 最 大 用 户 数量 ， 最 
大 会 话 数 量 和 交易 数量 ) 也 会 影响 恢复 时 间 。 例 如 ， 如 果 用 户 / 会 话 / 交 易 的 审核 和 
恢复 操作 必须 要 完成 故障 转移 等 服务 补救 措施 ， 那 么 一 个 支持 “10 倍 导 ”用 户 / 会 
话 / 交 易 的 组 件 ， 相 比 一 个 只 支持 最 多 “1 倍 导 ”用 户 / 会 话 / 交 易 的 组 件 ， 可 能 需要 
更 长 的 时 间 完 成 故障 转移 。 如 果 故 障 转移 的 时 间 差 异 与 最 大 可 接受 的 服务 延迟 相 比 
较 ， 架 构 师 在 工程 化 设计 虚拟 机 实例 组 件 容 量 时 ， 应 更 多 考虑 故障 转移 延迟 的 预算 。 


if 2 故障 点 


7. 2. 1 单 点 故障 
正如 在 5.4 节 “ 元 余 和 可 恢复 性 ”中 所 介绍 的 ， 元 余 和 高 可 用 性 架构 设计 使 
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单个 的 故障 事件 能 够 快速 被 检测 上 且 服务 恢复 到 元 余部 件 也 不 会 产生 对 用 户 不 可 接受 
的 影响 。 在 操作 上 ， 这 意味 着 任何 单一 故障 被 严格 控制 在 单个 的 组 件 实例 中 ， 所 以 
服务 可 以 迅速 恢复 到 宛 余 组 件 实例 。 在 关键 服务 交付 路 径 上 一 个 非 宛 余 的 故障 
(例如 简单 架构 ) 组 件 会 对 服务 产生 影响 ， 直 到 故障 部 件 被 修复 或 被 替换 ， 服 务 被 
恢复 。 在 关键 的 服务 路 径 上 的 单一 组 件 故障 导致 服务 死机 ， 也 被 称 为 “ 单 点 故 
障 ”。 通 过 在 系统 构建 时 进行 元 余 设 计 ， 服 务 可 以 通过 对 故障 的 快速 自动 转移 实 
现在 故障 后 的 迅速 恢复 ， 而 不 需 较 慢 的 手动 硬件 更 换 或 维修 操作 。 请 注意 ， 平 台 
或 应 用 软件 可 能 也 需要 启动 故障 转移 ， 以 将 流量 从 故障 的 方向 转 到 正常 运行 的 
方向 。 

通过 构建 和 分 析 应 用 程序 的 可 靠 性 框图 (RBD ) ， 可 以 找到 系统 的 “ 单 点 故 
障 ” 环 节 。 例 如 ， 假 设 一 个 应 用 程序 具有 一 个 前 端 组 件 “A” 和 一 个 后 端 组 件 
“B”， 且 “A” 和 “B” 组 件 实例 必须 能 给 用 户 提 供 服 务 ， 那 么 “A” 和 “B” 组 
件 实例 是 在 服务 的 关键 路 径 上 。 图 7. 1 显示 了 一 个 RBD 示例 ， 其 中 一 个 单一 的 前 
端 组 件 实例 “A, ”和 三 个 后 端 组 件 实例 “B,”“B,” 和 “了 B; ”对 于 完成 工作 任务 
和 提供 可 接受 的 服务 质量 都 是 必须 的 ， 在 这 种 非 兄 余 配置 中 ， 组 成 件 “A,” 产 生 
T 100% 的 容量 损失 中 断 ， 而 一 个 后 端 组 件 实例 (例如 “Bi;”) 产生 了 33% 的 容量 
损失 中 断 。 这 样 ， 组 件 “A, ”就 是 一 个 单 点 故障 (SPOF ) ， 因 为 它 不 可 用 会 导致 
服务 的 全 部 中 断 。 如 图 7.1 所 示 非 宛 余 设计 的 SPOF 可 以 提高 到 为 没有 单 点 故障 
( 见 图 7.2)， 具体 方法 如 下 : 





服务 需要 一 个 实例 服务 需要 三 个 实例 
以 可 以 接受 的 服务 以 可 以 接受 的 服务 
质量 提供 服务 荷载 质量 提供 服务 荷载 


图 7.1 简单 示例 系统 的 可 靠 性 框图 ( 含 SPOF) 


1) 使 单个 组 件 A 元 余 。 这 样 ， 实 例 〈 例 如 A) 出 现 故 障 不 会 再 导致 服务 中 
汤 ， 且 故障 组 件 可 以 被 迅速 修理 或 更 换 。 

2) 增加 一 个 额外 的 B 组 件 实例 。 这 样 。 实 例 (例如 B) 出 现 故 障 不 再 产生 
部 分 容量 损失 中 断 ， 且 故障 组 件 可 以 修理 或 更 换 。 
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组 件 A 和 组 件 B 的 空闲 
实例 可 以 看 作 是 一 个 





图 7.2 元 余 示 例 系统 的 可 靠 性 框图 (不 含 SPOF) 


7.2.2 单 点 故障 与 虚拟 化 


虚拟 化 增加 了 SPOF 风险 ,最 好 的 理解 是 通过 一 个 示例 ， 让 我 们 考虑 一 下 图 
7. 2 所 示 没有 SPOF 的 应 用 架构 。 如 图 7. 3 所 示 ， 通 过 对 虚拟 化 服务 器 实例 组 件 的 
优化 分 配 ， 实 现 了 无 单一 故障 点 : 两 个 虚拟 机 服务 器 都 有 单个 A 型 实例 和 单个 B 
型 实例 ( 即 虚拟 服务 器 “S1” 中 运行 了 A, 和 B, 两 个 实例 ， 虚 拟 服务 器 “$2” 中 
运行 了 A, ALB, 两 个 实例 ) ， 两 个 其 他 虚拟 服务 器 都 有 一 个 B 型 的 实例 〈 即 虚拟 服 
务 器 “S3” 中 运行 了 B, 实例 ， 虚 拟 服务 器 “S4” 中 运行 “B” 实 例 ) 。 


元 余 组 件 实例 被 映射 到 
分 数 的 虚拟 服务 器 实例 
ie 


虚拟 
服务 器 S2 


sO eens y, 
we, 


虚拟 虚拟 
服务 器 S3 服务 器 S4 


ee Pe Se N 
A Es 
“ee PS Sage 





图 7.3 虚拟 服务 器 间 的 非 SPOF 组 件 实例 分 布 


图 7.4 说 明了 这 一 优化 配置 是 如 何 成 功 运行 的 。 尽 管 虚拟 服务 器 S1 故障 会 影 
响 A, AB, 但 至 少 一 个 A 类 型 的 服务 实例 和 三 个 B 类 型 的 服务 实例 的 服务 要 求 仍 
可 以 满足 。 
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某 个 虚拟 化 服务 器 实例 不 会 影 
啊 主 组 件 实例 ， 也 不 会 影响 元 


余 组 件 实例 ， 因 此 该 配置 没有 
单 点 故障 一 






服务 器 S2 || 服务 器 S3 服务 器 S4 


有 


图 7.4 分 布 式 组 件 实例 的 无 单 点 故障 示例 


作为 对 比 ， 图 7.5 展示 了 组 件 实例 被 蔡 换 映射 到 虚拟 服务 器 。 当 A, 和 A, 实例 
都 运行 于 虚拟 服务 器 S1 时 ， 该 虚拟 服务 器 创建 了 一 个 单一 故障 点 。 虚 拟 服务 器 Sl 
出 现 放 障 会 使 其 达 不 到 继续 提供 服务 并 提供 可 接受 的 服务 质量 的 最 小 组 件 配置 需 
求 ， 从 而 产生 一 个 中 断 。“ 反 关联 性 规则 ”使 应 用 对 只 能 对 IaaS 的 实现 提供 有 限 的 
约束 ， 这 样 ， 没 有 单一 故障 点 的 要 求 ， 并 没有 违反 下 列 基本 事件 : 
如 果 主 实例 (A1) MICRA CA.) 都 安装 


在 同一 个 虚拟 化 服务 器 4S1) 上 ， 则 S1 是 一 
个 单 点 故障 点 ， 因 为 Si 的 故障 会 导致 服务 A 完 






全 不 可 用 ， 实 例 Al1 和 A2 都 会 被 影响 


g@*sesva2 


[a] [ffm 
`; 


4 
虚拟 ， -虚拟 虚拟 虚拟 
服务 器 S1 服务 器 S2 服务 器 S3 服务 器 S4 






ey tg 





图 7.5 分 布 式 组 件 实例 不 足 的 单 点 故障 示例 


1) 应 用 资源 的 初始 分 配 ; 
2) 应 用 资源 弹性 增长 ; 

3) 弹性 逆 增 长 (缩减) 的 应 用 资源 ; 

4) 在 IaaS 操作 期 间 ， 迁 移 或 重新 配置 云 资 源 。 例 如 增加 或 均衡 虚拟 机 负载 或 
存储 分 配 ; 

5) 启动 或 恢复 虚拟 机 快照 ; 

6) 故障 之 后 ， 重 新 启动 /恢复 /重新 分 配 虚 拟 资源 (例如 虚拟 机 、 存 储 等 ) ; 

7) 在 云 和 应 用 层 执 行 不 一 致 的 管理 操作 。 
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7.2.3 关联 性 和 反 关 联 性 考虑 


当 配 置 本 地 系统 时 ， 应 用 架构 师 通 常会 有 明确 意见 ， 决 定 每 个 应 用 程序 组 件 
实例 在 哪些 服务 器 或 刀片 上 运行 。 系 统 架 构 师 则 仔细 平衡 邻近 组 件 (例如 在 一 
个 机 箱 中 不 同 的 计算 刀片 上 或 在 一 个 刀片 或 机 架 式 服务 器 中 不 同 的 CPU 内 核 ) 
的 性 能 优势 以 消除 SPOF 风险 ， 因 为 单个 的 硬件 故障 就 会 同时 摧毁 任何 系统 组 件 
的 主 用 和 备用 实例 。 例 如 ， 如 果 一 个 高 可 用 系统 依赖 于 两 台 注 册 服务 器 来 处 理 易 
失 性 的 应 用 数据 ， 那 么 传统 的 高 可 用 性 配置 会 在 不 同 的 硬件 服务 器 中 都 安装 注册 
实例 ， 那 么 ， 单 个 硬件 服务 器 、 以 太 网 交换 机 和 其 他 故障 不 可 能 同时 影响 两 个 注 
册 实 例 。 请 注意 ， 这 两 个 注册 实例 会 镜像 彼此 之 间 动 态 变化 的 所 有 数据 。 这 样 ， 
在 一 个 注册 服务 器 故障 之 后 ， 可 以 最 小 化 上 下 文 损失 。 这 可 能 会 导致 这 两 个 注 
册 服 务 器 之 间 有 大 量 的 网 络 流量 ， 也 就 是 在 每 一 个 硬件 服务 器 支持 的 注册 实例 
之 间 有 大 量 的 流量 。 如 果 注 册 服务 器 实例 在 同一 服务 器 实例 中 ， 对 动态 数据 的 
镜像 和 收集 会 非常 快 ， 但 会 创建 一 个 SPOF。 为 此 ， 高 可 用 系统 架构 的 设计 ， 
从 部 署 应 用 开始 ， 需 要 明确 权衡 为 消除 SPOF 所 要 付出 的 稍 低 的 性 能 和 增加 的 
网 络 流量 。 


7.2.4 在 云 计 算 中 确保 无 SPOF 


“资源 池 ” 是 云 计算 技术 能 够 激励 云 提 供 商 最 大 限度 地 使 用 资源 的 主要 原因 。 
云 计算 限制 应 用 架构 师 和 去 用 户 明 确 地 控制 软件 组 件 实例 镜像 到 物理 硬件 资源 上 ， 
因为 云 服务 提供 商 在 资源 分 配 决策 中 具有 控制 权 。 此 外 ， 虚 拟 机 管理 髓 文 持 在 线 
(实时 ) 的 虚拟 机 实例 的 迁移 ， 这 使 云 服务 提供 商 可 以 物理 上 将 虚拟 机 实例 从 一 个 
虚拟 机 服务 器 移 到 男 一 个 。 而 且 ， 有 关 这 些 物理 放置 位 置 的 决策 (例如 ， 哪 个 虚 
拟 服务 器 在 特定 应 用 和 特定 时 间 运 行 在 哪个 虚拟 机 实例 ) 会 最 终 由 云 服务 提供 商 
的 虚拟 机 服务 器 控制 器 和 它们 的 操作 系统 来 动态 决定 。 此 外 ， 这 些 放置 位 置 的 决定 
可 能 会 随时 间 而 改变 ， 例 如 受到 云 服 务 提供 商 的 维护 计划 ， 其 他 应 用 程序 的 资源 需 
求 ， 甚 至 电源 管理 策略 都 可 以 导致 改变 。 这 里 需要 强调 的 是 ， 在 资源 分 配 和 虚拟 机 
实例 迁移 过 程 中 ， 都 没有 强制 执行 SPOF 规则 的 要 求 。 

图 7.6 展示 了 一 个 简化 的 虚拟 机 服务 器 控制 架构 。 对 应 用 实例 的 请 求 或 是 对 应 
用 弹性 增长 的 请 求 ， 被 提交 给 编排 控制 软件 ， 该 软件 可 以 对 位 于 一 个 或 多 个 数据 中 
心 的 虚拟 服务 器 实例 池 进 行 管 理 控制 。 

虚拟 机 服务 器 控制 器 根据 请 求 完成 对 应 用 配置 的 改变 ， 同 时 ， 强 制 执行 应 用 程 
序 的 反 关联 性 规则 和 云 服务 提供 商 的 业务 政策 。 其 结果 是 命令 一 个 或 多 个 虚拟 机 服 
务 器 对 虚拟 机 实例 进行 分 配 或 配置 。 除 了 要 考虑 反 关 联 性 规则 ， 虚 拟 机 服务 器 控制 
器 还 要 考虑 其 他 因素 ， 如 数据 中 心 利用 率 、 时 间 、 实 际 的 物理 位 置 和 预期 的 最 终 用 
户 ， 以 及 自动 化 工具 中 的 其 他 因素 。 
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(联合 ) 承运 云 服务 提 
供 商 将 启用 资源 映射 
到 VM 服务 器 节点 并 遵 
循 商业 和 操作 策略 











J vM 服 务 器 节点 将 外 部 / 
本 地 的 反 关 联 规则 在 高 
N 级 (联合 ) 云 服务 提供 
:| 商 OSS 实 施 


图 7.6 简化 的 VM 服务 器 控制 


虚拟 机 服务 妖 控 制 冀 通过 在 独立 的 虚拟 机 服务 盘 上 分 配 实例 ， 可 以 在 一 个 较 融 
层次 上 实现 无 单 点 故障 ， 并 且 虚 拟 机 服务 器 本 喘 也 要 实现 没有 单 点 故障 。 建 立 明确 
的 单 点 故障 问 责 规 定 是 非常 必要 的 ， 因 为 右 没 能 很 好 地 执行 元 单 点 故障 原则 ， 会 将 
应 用 置 于 服务 中 断 的 风险 之 中 。 


7.2.5 无 SPOF 和 应 用 程序 数据 


应 用 程序 会 时 刻 跟 踪 活 动 会 话 、 待 处 理 的 事务 、 资 源 状况 、 最 近 的 性 能 统计 、 
缓存 的 数据 、 程 序 的 堆栈 等 动态 信息 。 在 故障 发 生 、 服 务 受 到 影响 之 后 ， 应 用 架构 
师 面 临 经 典 的 技术 挑战 : 
1) 保持 元 余 的 应 用 或 数据 的 运营 支出 (OPEX); 
2) 实现 和 测试 复杂 的 数据 复制 ， 故 障 检 测 ， 故 障 恢复 机 制 的 开发 费用 。 
由 于 应 用 程序 自己 管理 自己 的 易 失 性 存储 器 的 内 容 ， 对 于 易 失 性 存储 器 ， 若 想 
消除 单 点 故障 通常 意味 着 下 面 几 种 方法 中 的 一 种 : 
© 在 男 一 个 应 用 程序 实例 中 维护 一 份 应 用 程序 的 动态 内 存 / 存 储 副 本 ; 
。 具有 从 持久 性 存储 快速 重建 应 用 程序 的 非 永久 性 存储 的 能 力 (例如 ， 重 新 
加 载 可 执行 程序 的 二 进 制 文件 和 用 户 配 置 文 件数 据 ) 以 及 快速 重建 不 受 影 
啊 的 软件 实例 的 能 力 (例如 从 客户 端 应 用 中 获取 用 户 状 态 或 上 下 文 数据 ); 

© 将 易 失 性 数据 存储 在 一 个 共享 的 数据 注册 服务 器 中 ， 该 服务 融 是 元 余 的 ， 
且 与 应 用 软件 分 开 。 

虽然 持久 存储 中 的 内 容 可 以 由 和 常规 应 用 软件 目 动 保护 ,但 电力 故障 ,物理 故障 
(例如 磁盘 头 裔 溃 很 容易 破坏 数据 内 容 ) ， 以 及 软件 、 人 为 因素 和 其 他 故障 ， 虽 然 
不 至 损坏 物理 设备 ， 但 仍 可 能 损坏 数据 。 软 件 、 人 和 其 他 非 物 理 故 障 对 数据 的 破 
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坏 ， 通 常 是 需要 通过 定期 的 备份 ， 应 用 数据 审计 ， 人 恢复 之 前 备份 的 数据 快照 等 来 补 
救 。 物 理 存储 设备 故障 的 脆弱 性 是 需要 通过 物理 元 余 来 解决 的 ， 具 体 以 下 : 

。 逻辑 存储 设备 中 的 宛 余 。 采 用 廉价 /独立 磁盘 〈 如 RAID) 是 消除 单独 硬盘 

设备 SPOF 的 通用 方法 ， 其 通过 将 数据 同时 写 进 多 个 物理 硬盘 来 实现 。 

_ RAID 存储 设备 自动 将 数据 写 人 到 多 个 独立 的 磁盘 ， 所 以 没有 单一 的 鲁 盘 
(或 其 他 单一 组 件 ) 失效 会 影响 对 数据 的 访问 的 问题 。RAID 存储 设备 保证 
在 逻辑 存储 设备 内 的 宛 余 副本 的 一 致 性 。 在 操作 上 ， 应 用 程序 可 能 通过 网 
络 协议 ， 如 网 络 文件 系统 (NFS) ， 访 问 持久 性 存储 ， 而 应 用 看 到 的 是 一 个 
单一 的 逻辑 存储 设备 〈 例 如 文件 系统 和 文件 ) 。 检 测 物 理 存 储 故 障 和 补救 
过 程 完全 由 RAD 存储 阵列 管理 。 
多 个 逻辑 存储 设备 间 的 了 元 余 。 数 据 元 余 可 以 通过 独立 的 应 用 实例 在 多 个 逻 
辑 存 储 设备 间 共 同 维护 来 实现 。 例 如 让 每 一 个 应 用 实例 维护 一 个 在 本 地 和 便 
盘 设 备 上 的 主 用 持久 性 存储 ， 数 据 的 变化 会 自动 复制 并 通过 网 络 保存 到 男 
一 个 独立 的 存储 设备 上 。 当 多 个 逻辑 存储 设备 被 使 用 时 ， 一致 性 必须 由 应 
用 程序 本 身 或 通过 文件 /数据 复制 服务 来 管理 。 数 据 的 变化 会 将 被 收集 到 一 
个 批 处 理 并 被 异步 复制 ， 如 每 15min 一 次 。 蜡 步 复 制 对 服务 有 最 小 的 延迟 
影响 ， 但 它 确 实 引入 了 一 个 从 复制 点 恢复 数据 导致 的 数据 丢失 窗口 。 同 步 
复制 在 多 个 逻辑 存储 设备 间 是 可 行 的 ， 但 一 般 影响 服务 延迟 ， 因 为 在 响应 
用 户 请 求 之 前 ， 多 个 设备 必须 成 功 更 新 持久 性 存储 。 当 一 个 逻辑 存储 设备 
失效 ， 应 用 实例 可 以 切换 到 只 使 用 备用 逻辑 存储 设备 ， 直 到 失效 的 单元 所 
成 修复 或 更 换 。 值 得 注意 的 是 ， 如 果 备 用 磁盘 也 出 现 故障 而 又 未 能 及 时 更 
换 和 恢复 已 有 故障 ， 应 用 程序 将 有 数据 丢失 的 风险 。 


7.3 极端 共存 解决 方案 


虚拟 化 允许 包括 多 个 应 用 解决 方案 ,解决 方案 可 能 会 是 非常 极端 的 ， 因 为 所 有 
的 应 用 会 在 这 个 解决 方案 中 被 整合 ， 并 且 要 被 部 署 到 一 对 虚拟 机 服务 右上。 多 个 高 
可 用 〈 即 宛 余 的 ) 应 用 实例 通过 一 个 无 单 点 故障 的 最 小 的 物理 主机 配置 完成 部 署 ， 
这 种 部 署 本 书 称 为 “极端 共存 解决 方案 " 。 尽 管 所 有 的 应 用 程序 的 组 件 都 是 元 余 
的 ， 因 此 没有 SPOF 问题 存在 ， 但 在 极端 共存 配置 下 ， 每 个 虚拟 机 服务 器 代表 了 一 
个 故障 足迹 ， 不 仅 与 服务 密切 相关 ， 而 且 能 够 影响 所 有 应 用 实例 中 一 半 以 上 的 高 可 
用 组 件 。 一 些 故障 事件 有 可 能 会 影响 很 大 一 部 分 应 用 的 功能 和 容量 ， 高 可 用 性 机 制 
必须 能 够 应 对 ， 不 仅 如 此 ， 对 其 他 应 用 的 同步 和 关联 性 影响 也 必须 能 够 应 对 。 例 
如 ， 如 果 一 个 电子 商务 解决 方案 中 的 所 有 的 应 用 实例 被 整合 到 两 个 虚拟 机 服务 需 ， 
然后 一 个 服务 器 彻底 宕 机 了， 那么 所 有 故障 服务 紫 中 运行 的 组 件 ， 必 须 在 为 一 个 服 
务 器 上 进行 恢复 ， 并 且 需 要 与 相关 解决 方案 中 的 其 他 应 用 重建 连接 ， 如 后 台数 据 库 
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服务 器 ， 信 用 卡 支 付 系统 和 物流 服务 。 这 两 个 组 件 同 时 进行 故障 恢复 增加 了 恢复 的 
eal 同时 与 目标 应 用 依靠 的 外 部 应 用 重建 连接 也 使 得 服务 的 恢复 更 是 极端 复 
， 这 一 过 程 可 能 会 很 慢 ， 也 可 能 会 降低 可 靠 性 。 
理想 情况 下 ， 在 出 现 故障 后 ， 在 极端 共存 解决 方案 配置 下 ， 所 有 的 应 用 组 件 可 
以 快速 地 恢复 用 户 服 务 。 另 外 ， 云 计算 的 用 户 或 应 用 可 以 将 故障 视 为 灾难 ， 然 后 就 
可 以 依靠 灾难 恢复 机 制 来 恢复 用 户 服务 了 。 


7.3.1 极端 共存 解决 方案 的 风险 


假设 每 个 单独 的 应 用 能 够 满足 高 可 用 性 和 无 单 点 故障 要 求 ， 当 配置 两 个 物理 主 
机 时 ， 极 闪 共 存 问题 就 变 成 了 : 故障 发 生 之 后 ， 用 户 服务 通过 极端 共存 解决 方案 进 
行 恢复 ， 要 比 在 单机 上 通过 最 慢 高 可 用 应 用 配置 进行 恢复 慢 多 少 ? 毕竟 ， 如 果 极 端 
共存 解决 方案 的 恢复 时 间 只 是 单独 应 用 恢复 的 最 大 次 数 ， 那 么 你 就 会 发 现 最 慢 的 应 
用 并 优化 那个 应 用 的 恢复 时 间 。 极 端 共存 方案 的 一 些 需要 引起 注意 的 问题 如 下 : 

1) 如 果 一 个 组 件 故障 转移 取决 于 另 一 个 服务 器 ， 那 么 采用 极端 共存 机 制 ， 故 
障 转 移 可 能 需要 更 长 时 间 。 即 ， 如 果 在 应 用 “A” 的 运行 期 间 ， 它 需要 应 用 “B” 
处 理 一 个 请 求 ， 然 后 应 用 “A” 将 无 法 继续 服务 直到 应 用 “B” 人 恢复 服务 。 

2) 死 锁 的 情况 可 能 发 生 ， 这 会 阻止 一 些 应 用 程序 的 恢复 。 也 就 是 说 ， 如 果 应 
用 程序 “A” 的 运行 取决 于 应 用 程序 “B” 是否 运 行 ， 同样 ， 应 用 程序 “B” 取 决 
于 应 用 程序 “C”， 应 用 程序 “C” 了 又 依赖 于 应 用 程序 “A”， 那 么 应 用 不 可 能 再 
恢复 。 

3) 多 个 应 用 程序 在 同一 时 间 发 生 故 障 可 能 导致 关键 资源 饱和 或 过 载 ， 如 对 
CPU 或 磁盘 的 访问 ， 这 会 明显 延长 服务 恢复 时 间 。 

4) 即使 在 每 个 物理 主机 上 ， 活 动 / 备 用 实例 的 任何 组 合 都 是 允许 的 ， 那么 测 
试 每 一 个 可 能 的 配置 也 是 不 切实 际 的 。 在 实验 室 中 ,开发 团队 可 能 不 是 在 真正 的 最 
坏 情况 下 测试 极端 共存 配置 ， 因 为 在 实验 室 他 们 无 法 预测 它 ， 而 必须 要 在 实际 应 用 
中 进行 摸索 。 

5) 为 了 能 够 处 理 最 坏 极端 共存 故障 ， 使 用 退 避 和 定时 器 来 减缓 单一 应 用 实例 的 
恢复 。 对 于 典型 的 故障 场景 ， 减 缓 恢 复 则 是 不 必要 的 。 

6) 如 果 一 个 共存 应 用 对 硬件 资源 要 求 很 高 ， 那 么 关键 的 应 用 可 能 会 经 历 服务 
降级 。 

当 一 个 虚拟 机 服务 器 故障 影响 极端 共存 解决 方案 时 ， 没 受 影响 的 虚拟 机 服务 器 
将 有 可 能 经 历 一 个 负载 高 峰 ， 因 为 所 有 没 受 影响 的 应 用 组 件 的 实例 需要 同时 启动 恢 
复 操作 ， 以 减轻 极端 共存 失效 事件 的 影响 。 这 些 重 又 的 、 相 互 依存 的 恢复 行动 ， 再 
加 上 短期 的 虚拟 化 架构 性 能 退化 〈 由 于 所 有 的 组 件 实例 同时 执行 恢复 操作 ) ， 增 加 
了 所 有 服务 无 法 在 最 大 可 接受 时 间 内 完成 恢复 的 风险 。 为 降低 这 一 风险 ， 必 须 深 入 
分 析 和 测试 解决 方案 的 配置 ， 确 定 极 端 共存 架构 是 否 需 要 修改 ， 从 而 可 以 更 有 效 地 
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管理 任何 检测 到 的 风险 ( 见 15.5 节 ,“ 反 相关 性 分 析 ”) 。 

下 列 是 推荐 的 架构 策略 ， 能 够 确保 当 极端 共存 配置 下 的 主机 失效 时 ， 应 用 程序 
可 以 快速 恢复 ; 

1) 宛 余 组 件 最 好 主动 运行 、 加 载 共 享 ， 而 不 是 主动 /待机 ， 这 样 ， 恢 复 应 用 
程序 不 必 等 待 备用 组 件 实例 被 激活 。 客 户 端 应 用 应 为 至 少 两 个 非 共存 实例 建立 并 保 
持 会 话 , 这 样 ， 如 果 一 半 的 服务 器 由 于 虚拟 服务 器 故障 而 同时 失效 ， 那 么 应 用 仍 能 
保持 服务 不 中 断 。( 注 意 ， 为 相同 的 服务 维护 多 个 会 话 必 须 小 心 避免 状态 不 一 致 的 
情况 。) 

2) 必须 避免 循环 依赖 ， 如 A 依赖 于 B，B 依赖 于 C，C 依赖 于 A。 

3) 宛 余 实例 应 该 尽 可 能 地 做 好 充分 准备 从 它 的 伙伴 实例 那里 接管 服务 。 也 就 
是 说 ， 程 序 应 该 运行 ， 并 把 从 活动 实例 接收 的 状态 数据 妥善 存放 在 存储 器 中 。 这 是 
为 了 减少 需要 激活 元 余 单元 和 避免 关键 资源 短缺 的 处 理 。 

4) 应 用 程序 应 该 可 以 通过 所 有 可 能 的 接口 ， 独 立地 完成 故障 恢复 。 不 应 该 假 
定 任 何 两 个 接口 ， 会 或 不 会 同时 失效 。 


7.4 多 租 亡 与 解决 方案 容 希 


应 用 服务 供应 商 通 常会 将 应 用 实例 和 技术 组 件 逻 辑 上 捆绑 在 一 起 放 到 一 
“容器 ”中 ， 以 此 方便 隔离 所 有 配置 ， 同 时 也 方便 一 个 应 用 用 户 组 从 为 一 meet 
读 取 数据 。 例 如 ， 一 个 应 用 服务 提供 商 提供 在 线 协 作 服务 ， 每 个 企业 客户 的 配置 和 
应 用 程序 数据 会 严格 与 其 他 企业 客户 〈 也 被 称 为 封闭 用 户 组 ) 分 开 ， 每 个 企业 的 
容器 是 根据 企业 客户 的 安全 要 求 和 其 他 业务 政策 而 定 。 传 统 上 ， 这 些 封闭 的 用 户 组 
可 以 通过 复杂 应 用 逻辑 来 实现 ， 需 要 通过 编程 方式 分 离 不 同 的 用 户 群 体 ， 而 虚拟 化 
使 独立 的 应 用 程序 和 解决 方案 的 实例 可 以 在 单独 的 虚拟 资源 中 创建 和 独立 操作 ， 从 
而 减少 应 用 程序 相互 之 间 的 复杂 性 ， 减 少 了 一 个 用 户 组 交互 会 干扰 其 他 用 户 组 的 风 
险 。 这 可 以 使 应 用 服务 提供 商 完成 快速 部 署 ， 并 可 以 为 每 个 独立 客户 便捷 地 操作 服 
务 容器 。 除 了 严格 的 包含 客户 的 专 有 信息 ， 应 该 还 提供 男 一 种 级 别 的 故障 容 咽 。 例 
如 ， 如 果 一 个 客户 不 小 心 设置 了 错误 的 安全 策略 ， 导 致 错误 地 拒绝 了 授权 用 户 对 数 
据 的 访问 ， 那么 应 用 服务 提供 商 的 容器 应 阻止 该 错误 影响 该 提供 商 其 他 “租户 ” 
的 服务 ， 即 使 他 们 来 自 同一 个 云 数 据 中 心 ， 运 行 同 一 应 用 程序 。 
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本 章 讨论 基于 云 应 用 的 在 线 弹 性 容量 增长 和 逆 增 长 的 服务 质量 风险 问题 。 在 弹 
性 操作 的 实践 方面 ， 讨 论 过 载 控 制 。 本 章 对 快速 弹性 引入 的 风险 进行 了 评估 。 值 得 
注意 的 是 ， 弹 性 问题 在 这 本 书 的 其 他 几 个 章节 都 有 提 及 : 

。 在 3.5 节 “ 弹 性 度量 ”中 介绍 了 弹性 策略 和 度量 。 

。 在 13.8 节 “ 弹 性 需求 ”中 介绍 了 应 用 程序 的 弹性 需求 。 

© 在 15.6 节 “弹性 分 析 ” 中 从 架构 上 对 弹性 风险 进行 了 分 析 。 

© 在 16.4.5 节 “ 应 用 程序 弹性 测试 ”介绍 了 应 用 程序 的 弹性 测试 。 


8.1 工作 负载 变化 


应 用 程序 工作 负载 变化 的 基本 原因 如 下 : 


长 期 流行 /增长 或 下 降 趋 势 。 流 行程 度 往往 会 随时 间 不 断 增长 ， 现 有 客户 经 
常会 被 有 条 不 紊 地 迁移 到 一 个 新 的 应 用 。 每 周 有 成 千 上 万 的 用 户 执行 迁移 ， 
从 旧 系 统 迁 移 到 新 的 系统 ， 而 这 些 迁移 到 新 系统 的 用 户 又 会 大 量 使 用 新 的 
应 用 ， 从 而 使 新 应 用 的 使 用 率 每 周 都 快速 增长 。 最 终 ， 较 老 的 应 用 成 为 过 
时 的 而 不 受 欢 迎 ， 并 且 使 用 率 大 幅 下 降 。 当 用 户 被 视 为 趋势 增长 或 下 降 的 
“动力 ”而 被 迁移 、 监 视 和 跟踪 时 ， 这 些 流行 趋势 可 以 显 式 地 被 管理 起 来 。 
每 日 、 每 周 和 季 节 性 变化 。 图 8. 1 以 对 数 方式 显示 了 一 个 典型 通信 应 用 程 
序 的 每 日 工作 负载 。 注 意 ， 峰 值 负载 ( 当地 时 间 上 午 10 点 ) 超过 100 倍 的 
非 高 峰 负 和 荷 (上 午 5 点 )。 不 同 的 应 用 程序 可 能 会 有 非常 不 同 的 工作 负载 模 
式 。 许 多 应 用 程序 有 每 周 的 流量 变化 ， 例 如 企业 应 用 在 工作 日 有 较 重 的 负 
载 ， 而 在 周末 则 较 轻 。 季 节 性 模式 也 很 常见 ， 如 消费 者 电子 商务 应 用 在 圣 
诞 节 前 几 周 会 有 较 高 的 工作 负载 。 

极端 流行 高 峰 。 一 些 企 业 的 应 用 表现 出 极端 的 季节 性 高 峰 ， 如 消费 电子 商 
务 流 量 在 “黑色 星期 五 ”和 “网 络 星 期 一 ”发 布 新 产品 或 服务 的 时 候 ， 或 
者 是 有 重要 娱乐 或 体育 赛事 的 时 候 。 

特殊 事件 。 促 销 ， 病 毒 (如 Slashdot) 和 其 他 具有 区 域 或 国家 意义 上 的 事件 
(如 地 震 和 怒 怖 袭击 ) 能 产生 不 可 预测 的 负载 峰值 。 

市 场 试 验 。 工 作 负 载 会 自然 地 跟随 市 场 变化 。 增 加 有 限 的 服务 容量 来 运行 
一 个 用 户 测 试 或 者 尝试 一 个 新 的 服务 实现 方式 ， 并 与 现 有 的 实现 方式 进行 
对 比 。 实 验 结束 后 再 减少 容量 。 
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从 5~10am 工作 负载 
增加 了 100 信 


12:00a.m. 6:00a.m. 12:00p.m. 12:00p.m. 12:00a.m. 
日 期 时 间 (2012/4/26 周 四 ) 


图 8.1 每 日 工作 负载 变化 示例 (对 数 尺 度 ) 


每 15min 操 作 (对 数 尺度 ) 


8.2 传统 容量 管理 


传统 上 ， 应 用 程序 直接 与 资本 费用 相关 联 ， 因 为 支持 越 多 的 在 线 服务 容量 意味 
着 要 购买 更 多 的 CPU 处 理 器 ， 内 存 ， 存 储 和 网 络 资源 来 运行 应 用 软件 。 通 常 ， 所 
有 的 应 用 容量 应 保持 24 x7 在 线 ， 因 为 相 比 主动 地 在 线 管理 应 用 程序 服务 容量 ， 这 
种 方式 简单 且 网 络 服务 质量 风险 较 低 。 容 量 管理 事件 通常 是 精心 计划 和 提前 安排 
的 ， 可 以 在 较 低 的 使 用 维护 窗口 期 间 执行 〈 见 图 8.2) 。 目 前 行业 惯例 已 经 发 展 到 
可 以 专门 处 理 这 些 预 先 计 划 的 事件 ， 并 且 在 许多 情况 下 ， 应 用 程序 允许 安全 地 经 历 
一 个 短暂 的 计划 内 停机 ， 以 便 安 全 地 完成 容量 管理 操作 。 对 于 传统 的 具有 可 接受 服 
务 风险 的 应 用 ,那些 使 用 高 质量 过 程 管理 ( MOP) 方法 的 客户 ， 周 密 的 计划 ， 送 
当 的 训练 和 准备 ， 认 真 的 执行 会 促进 服务 的 增长 或 逆 增 长 。 


40000 






每 15min 操 作 


OW essenpee 
12:00a.m. 6:00a.m. 12:00p.m. 6:00 p.m. 12:00 a.m. 
时 间 
预计 的 重量 改变 操作 
一 般 情况 下 在 较 低 负 
载 的 “维护 窗口 ”时 


间 进 行 


图 8.2 传统 的 维护 窗口 
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8.3 传统 过 载 控制 


当 所 提供 的 工作 负载 超出 了 在 线 服 务 容量 ， 设 计 良 好 的 应 用 程序 应 检测 到 过 载 
情况 ， 并 和 缓 地 拒绝 一 些 流量 ， 比 如 通过 返回 “TOO BUSY” 错误 信息 给 一 些 用 户 
请 求 ， 同 时 重新 计划 低 优 先 级 活动 (如 测量 报告 )， 直 到 过 载 状态 结束 。 如 图 8. 3 
所 示 ， 通 过 积极 舒缓 地 拒绝 服务 ， 可 以 改变 负载 情况 ， 这 要 比 让 应 用 程序 饱和 地 通 
过 灾难 故障 点 要 好 得 多 。 


理想 的 拥塞 控制 : 不 考虑 
过 载 ， 全 部 设计 容量 用 于 


有 效 的 拥塞 控制 : 
在 过 载 发 生 时 ， 

采用 接近 全 部 设 
计 容 量 进行 传输 


无 效 的 拥塞 控制 : 
过 载 导 致 应 用 程 
序 发 生 事故 





提供 交通 负载 
8.3 传统 的 拥塞 控制 


虽然 最 终 用 户 可 能 解释 服务 不 可 用 的 问题 是 因为 受到 了 过 载 控 制 (如 “所 有 
的 线路 正 忙 ， 请 稍 后 再 拨 ”) ， 而 这 种 从 技术 上 拒绝 流量 的 机 制 是 应 用 程序 必须 要 
设计 的 ， 它 一 般 不 会 被 视 为 是 产品 自身 导致 的 服务 中 断 。 相 反 ， 对 用 户 服务 的 影响 
是 由 于 应 用 程序 服务 提供 商 未 能 调配 充足 的 在 线 容量 满足 负载 要 求 。 从 技术 上 讲 ， 
用 户 会 收 到 一 错误 提示 ， 表 明 没 有 为 负载 配置 足够 的 服务 资源 。 

最 佳 的 经 验 是 遵循 严格 的 容量 管理 过 程 。 容 量 管理 过 程 由 ITIL (IT 架构 库 ) 
所 推荐 ,包括 以 下 几 个 重要 内 容 : 

o 性 能 监控 ; 

© 负载 监控 ; 

e 应 用 程序 大 小 ; 

e 资源 预测 ; 

© 需求 预测 ; 

° 建 模 ; 

。 执行 容量 相关 变更 。 

作为 一 个 实际 问题 ， 传 统 的 容量 管理 常常 归结 为 : 为 应 用 程序 预测 用 户 工作 负 
载 峰值 和 安装 足够 的 容量 以 便 能 够 服务 更 大 的 工作 负载 。 这 种 相对 静态 的 容量 管理 
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策略 导致 两 方面 风险 : 一 是 浪费 资金 〈 资 本 支出 ) ， 如 果 预 测 需 求 没有 实现 ， 这 显 
然 是 种 浪费 ; 二 是 用 户 请 求 被 拒绝 (或 只 能 提供 较 差 的 服务 ) ， 如 果 负 载 超过 在 线 
容量 ， 用 户 请 求 就 会 被 拒绝 ， 直 到 分 配 、 购 买 、 安 装 、 上 线 更 多 的 容量 。 典 型 的 最 
好 情况 下 ， 传 统 的 应 用 会 部 署 超出 预期 峰值 15% 的 过 剩 容量 ， 因 此 大 多 数 时 候 ， 
有 大 量 的 可 用 容量 闲置 (有 可 能 浪费 ) ， 远 超出 提供 服务 所 需 的 容量 需求 。 原 因 是 
传统 的 容量 管理 强迫 企业 将 大 量 资本 支出 放 到 可 能 出 现 的 用 户 需求 高 峰 上 ， 而 这 种 
高 峰 可 能 永远 不 会 到 来 ， 而 且 随 着 消费 者 兴趣 和 业务 需求 的 转变 最 终 还 可 能 会 
下 降 。 

请 注意 ， 在 现实 中 ， 很 少 会 执行 缩减 操作 ， 大 概 因为 硬件 资源 的 价值 贬值 快 ， 
当 客 户 相信 容量 可 以 缩减 时 ， 未 使 用 或 未 充分 利用 的 硬件 的 剩余 价值 又 变 得 太 低 
了 ， 又 无 法 保证 在 成 本 支出 上 重新 部 署 和 发 布 资源 ， 潜 在 的 故障 风险 ， 以 及 缩减 操 
作 失 败 对 服务 的 影响 是 可 以 接受 的 。 


8.4 容量 管理 与 虚拟 化 


虚拟 化 可 以 更 简单 和 更 快捷 地 实例 化 新 的 虚拟 机 实例 以 提供 在 线 应 用 程序 容 
量 ， 这 要 要 比 传统 的 使 用 硬件 资源 好 很 多 。 不 同 于 向 供应 商 订购 增加 的 硬件 资源 
(如 订购 计算 刀片 、 内 存 和 硬盘 ) ， 花 数 天 或 数 周 时 间 等 待 硬件 交 货 ， 按 操作 手册 
执行 硬件 安装 ， 虚 拟 化 可 以 使 一 个 人 在 几 分 钟 内 完成 虚拟 资源 的 分 配 ， 包 括 增加 或 
减少 。 此 外 ， 虚 拟 化 使 得 重新 使 用 回收 的 资源 更 为 简单 。 值 得 注意 的 是 ， 这 个 美好 
的 预期 需要 两 方面 支持 ,一 是 架构 提供 商 确 保有 足够 的 可 用 资源 ， 能 够 支撑 应 用 的 
增长 ， 二 是 云 消费 者 确保 他 们 的 容量 增长 路 线 图 (计划 ) 已 经 提交 给 云 提供 商 。 

除了 获取 新 资源 (如 计算 机 刀片 或 虚拟 机 实例 ) 的 容量 增长 实现 模型 和 在 这 
些 资源 上 安装 应 用 软件 之 外 ， 虚 拟 化 技术 有 两 个 新 的 亮点 : 

o 激活 虚拟 机 快照 。 虚 拟 机 监视 器 可 以 创建 并 启用 虚拟 机 快照 ， 保 存 某 一 个 

时 间 点 上 虚拟 机 实例 的 配置 和 存储 器 中 的 内 容 。 之 后 保存 的 快照 可 以 被 激 
活 ， 创 建 一 个 与 原始 虚拟 机 实例 创建 快照 时 一 模 一 样 的 副本 。 当 需要 增加 
容量 时 ， 这 种 机 制 可 以 被 用 来 绕 过 诸如 加 载 和 配置 (客户 ) 操作 系统 和 应 
用 程序 软件 等 一 些 耗费 时 间 的 过 程 。 

。 激活 暂停 的 虚拟 机 实例 。 虚 拟 机 监视 器 允许 虚拟 机 实例 被 暂停 ， 它 可 以 高 
效 地 将 虚拟 机 实例 进入 休 睡 状态 ， 不 再 消耗 CPU 资源 。 由 于 作为 一 个 暂停 
虚拟 机 实例 不 会 回应 心跳 信息 ， 使 用 这 种 机 制 必须 仔细 与 应 用 程序 的 高 可 
用 机 制 协调 ， 以 防止 把 由 于 容量 管理 原因 而 暂停 的 虚拟 机 实例 曲解 为 一 个 
虚拟 机 实例 故障 事件 。 

激活 一 个 快照 或 暂停 虚拟 机 实例 后 ， 虚 拟 机 实例 本 身 以 及 对 应 用 程序 的 管理 和 
染 构 的 控制 ， 必 须 重 新 闻 步 整合 应 用 实例 新 激活 的 虚拟 机 容量 。 
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图 8. 1 的 例子 展示 了 一 个 示例 应 用 程序 日 常 工作 量 的 增长 从 当地 时 间 上 午 5 点 
到 10 点 的 变化 。 幸 运 的 是 ， 虚 拟 化 技术 已 经 证 明 自 己 在 企业 数据 中 心 部 署 中 是 一 
个 非常 有 效 的 工作 负载 整合 工具 ， 虚 拟 机 监视 器 可 以 有 效 地 共享 架构 资源 ， 通 过 优 
化 总 的 资源 使 用 ， 名 义 上 能 够 支持 当地 时 间 上 午 5 点 的 应 用 。 虚 拟 化 可 以 对 应 用 程 
序 池 进行 容量 管理 ， 因 为 虚拟 机 监视 器 就 像 老 的 分 时 多 用 户 计算 机 系统 一 样 ， 通 过 
预先 定义 的 策略 可 以 高 效 地 为 应 用 池 提 供 共 享 的 宝贵 资源 。 特 定 应 用 在 特定 时 间 未 
使 用 的 资源 (例如 应 用 程序 在 上 午 5 点 ) 可 以 被 另 一 个 应 用 程序 使 用 而 不 是 简单 
的 被 浪费 。 对 于 架构 供应 商 ， 找 到 在 非 高 峰 时 段 使 用 资源 的 应 用 和 用 户 可 能 有 点 挑 
战 性 ， 但 对 于 大 量 的 企业 用 户 来 说 ， 这 是 一 个 普通 问题 ， 例 如 航空 公司 和 酒店 ， 已 
经 开发 出 了 复杂 的 定价 和 促销 模型 来 填补 他 们 的 非 高 峰 容 量 。 

如 在 第 3.5.4 节 “ 向 内 和 向 外 扩展 ”以 及 第 3.5.5 节 “ 向 上 和 向 下 扩展 ”中 
所 述 ， 虚 拟 化 在 资源 的 大 小 和 配置 方面 提供 了 巨大 的 灵活 性 ， 使 得 这 些 资源 能 够 跟 
上 工作 负载 所 需 。 第 7.1.3 节 “ 故 障 容器 与 虚拟 化 ”讨论 了 在 决定 虚拟 机 实例 大 
小 时 故障 容器 上 的 考虑 。 因 此 ， 应 用 程序 架构 师 必须 恰当 地 选择 虚拟 机 实例 的 规 
模 ， 适 当地 放大 或 缩小 资源 配置 。 即 使 是 灵活 的 资源 ， 多 个 应 用 程序 实例 往往 会 被 
客户 部 署 到 多 个 可 用 的 区 域 和 数据 中 心 ， 而 不 是 依靠 一 个 单一 且 庞 大 的 应 用 程序 实 
例 。 除 了 故障 容器 而 外 ， 全 于 
“转换 速率 和 线性 度 ”) 确定 应 用 程序 的 水 平和 垂直 规模 。 最 大 化 应 用 程序 转换 速 
率 这 一 简单 概念 需要 考虑 以 下 几 点 : 

© 并 发 性 。 弹 性 增长 操作 是 否 按 应 用 程序 被 严格 序列 化 了 (也 许 当 一 个 弹性 

增长 操作 正 处 于 等 待 状态 时 ， 新 的 增长 请 求 被 拒绝 了 ) 或 是 多 个 增长 操作 
能 被 琶 加 吗 ? 

。 容量 增长 的 粒度 (敏感 度 ) 。 支 持 多 个 大 小 的 Ce, A? 〈 例 如 增加 一 个 2 核 
的 CPU 虚拟 机 实例 或 是 4 核 的 虚拟 机 实例 ) ， 或 者 只 是 支持 单个 单元 的 容 
量 增长 ? 

a aan ae 
了 时 间 间 隔 ， 容 量 增长 的 单位 ， 以 及 并 发 常 

We en noah Th WO 
应 用 程序 进行 维护 时 ， 云 操作 支持 系统 (OSS) 必须 要 考虑 这 个 最 大 速率 。 由 云 消 
费 者 决定 的 容量 管理 策略 必须 平衡 这 两 方面 风险 : 一 是 备用 在 线 容量 的 资金 消耗 ; 
二 是 遇 到 流量 高 峰 或 故障 时 ， 没 有 的 充足 的 在 线 可 用 容量 来 服务 用 户 。 


8.5 云 容 量 管理 


云 计算 的 两 个 特点 是 通过 引入 按 需 增长 ， 供 应 规划 、 发 布 管理 等 概念 从 根本 上 
特 变 云 消费 者 容量 管理 的 期 望 。 
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e 按 需 自助 服务 。 使 用 者 可 以 单方 面 规定 计算 功能 ， 如 服务 器 时 间 和 网 络 存 
储 ， 在 需要 时 自动 与 每 个 服务 提供 者 交互 ， 不 需要 人 工 参与 。 

© 快速 弹性 。 能 力 可 以 弹性 地 供给 和 释放 。 某 些 情况 下 可 以 自动 扩大 或 缩小 
规模 以 与 需求 相 匹配 。 对 于 消费 者 ， 可 用 的 功能 配置 似乎 是 无 限 的 ， 可 以 
在 任何 时 候 、 使 用 任何 数量 。[ sp800-145 ] 

云 计 算 的 快速 、 弹 性 这 一 基本 特征 构成 了 温 曼 的 云端 经 济 法 则 2 号 : 

按 需 胜 过 预测 。 能 够 迅速 供给 容量 的 能 力 意味 着 任何 意 想不到 的 需求 都 可 以 被 
满足 ， 并 且 可 以 获得 相关 收益 。 能 够 迅速 减少 容量 供给 的 能 力 意味 着 公司 不 需要 支 
付 更 多 的 钱 在 非 生 产 性 资产 上 。 预 测 往 往 是 错误 的 ， 所 以 瞬间 反应 能 力 意味 着 更 高 
的 收益 和 更 低 的 成 本 。[ Weinman | 

因此 ， 云 服务 提供 商 的 责任 来 是 能 够 预测 和 保证 有 足够 的 云 资源 可 用 来 满足 消 
费 者 的 需求 。 

云 容量 管理 可 以 部 署 在 两 个 基本 方面 : 

。 手动 触发 容量 管理 事件 。 手 动 触 发 容量 管理 事件 是 指 显 式 地 人 工 启动 (或 

执行 ) 弹性 增长 或 逆 增 长 过 程 。 例 如 ， 企 业 可 以 先 于 可 能 触发 异常 高 负载 
的 事件 发 生 之 前 ， 显 式 地 触发 大 幅 的 容量 增长 ， 例 如 对 于 电子 商务 应 用 的 
“网 络 星期 一 ”。 

。 自动 容量 管理 事件 。 复杂 的 弹性 管理 操作 支持 系统 被 配置 成 自动 实现 弹性 
政策 。 自 动机 制 必须 预测 最 近 一 段 时 间 所 需 负载 ， 这 样 额 外 的 容量 可 以 在 
负载 增长 前 被 提前 在 线 购 买 。 自 动 增长 策略 的 执行 必须 略 有 迟 清 ， 以 防止 
出 现 弹 性 振荡 。 

图 8.4 简化 了 云 模型 图 3.3 ， 给 出 了 一 个 简单 的 弹性 容量 管理 视图 。 弹 性 的 快 

速 增长 通常 始 于 一 些 自动 监测 机 制 ， 这 些 自动 监测 机 制 会 监测 应 用 程序 的 工作 负载 
情况 ， 监 测 数据 来 源 于 负载 均衡 器 ， 应 用 程序 自身 的 性 能 指标 〈 例 如 吞吐 量 和 活 
动 的 会 话 数 量 ) ， 或 者 是 云 架 构 资 源 的 利用 率 水 平 (如 CPU 周期 和 空闲 磁盘 空 
间 ) 。 当 对 使 用 情况 的 测量 结果 超过 阔 值 (如 CPU 占用 率 太 高 太 久 ) ， 云 操作 系统 
可 以 自动 启动 适当 的 水 平 、 垂 直 或 者 是 向 外 增长 操作 。 这 些 操作 一 开始 都 会 请 求 云 
服务 提供 商 提供 更 多 的 资源 ; 然后 云 0SS 整合 新 分 配 的 云 资源 与 在 线 应 用 程序 实 
例 ; 新 的 应 用 程序 组 件 实例 会 被 一 组 测试 会 话 所 检验 ， 以 确保 各 项 功能 正常 ; 最 后 
新 扩展 的 应 用 程序 容量 被 在 线 加 载 并 为 用 户 提 供 服 务 。 需 要 注意 的 是 ， 云 消费 者 的 
解决 方案 往往 依赖 于 一 套 交 互 工作 的 应 用 程序 和 技术 组 件 ， 那 么 组 件 ( 如 应 用 程 
序 的 后 端 组 件 ) 容量 的 增长 可 能 意味 着 支持 目标 组 件 的 其 他 组 件 ( 如 数据 库 组 件 ) 
也 应 该 增长 ， 以 最 小 化 在 容量 增长 事件 之 后 产能 容量 瓶颈 的 风险 。 

图 8. 4 是 一 个 简化 的 弹性 增长 模型 。 其 实 大 部 分 的 复杂 性 在 于 选择 正确 的 测量 阔 
值 、 策 略 以 及 容量 增长 的 触发 点 。 这 个 选择 需要 对 特定 应 用 的 资源 需求 进行 分 析 ， 包 
括 对 基本 工作 负载 需求 分 析 和 对 负载 增加 引起 的 使 用 情况 变化 的 分 析 。 有 很 多 分 析 工 
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定义 弹性 的 容量 管理 策略 
1. 一 些 操作 支持 系统 监测 应 用 程序 服务 性 能 


2. 云 OSS 针 对 操作 和 业务 策略 进行 
应 用 程序 性 能 分 析 
云 操作 Ii 
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图 8.4 简化 的 基于 云 应 用 程序 的 弹性 增长 


具 (如 Dapper 和 AppDynamics) 可 以 帮助 监测 资源 和 工作 模式 ， 可 以 特征 化 描述 资 
源 需 求 ， 这 可 以 被 用 于 应 用 程序 资源 需求 预测 。 对 特定 应 用 的 分 析 很 重要 ， 因 为 有 许 
多 因素 会 影响 资源 的 使 用 ， 如 应 用 程序 是 否 需要 获取 或 复制 状态 信息 。 
图 8. 5 给 出 了 一 个 典型 的 弹性 逆 增 长 的 简化 视图 。 云 0SS 监控 应 用 程序 的 工 
作 负 载 和 资源 使 用 情况 ， 确 定 长 时 间 低 于 逆 增 长 阔 值 的 应 用 ， 基 于 应 用 提供 的 策略 
[定义 弹性 的 容量 管理 策略 ”| 


1. 一 些 操作 支持 系统 监测 应 用 程序 服务 性 能 
2. 云 OSS 针 对 操作 和 业务 策略 进行 
应 用 程序 性 能 分 析 
3. 应 用 程序 定义 回收 容量 















支持 系统 (s) | | 
repos | 
4. 应 用 程序 分 配 
(或 云 OSS) 在 





VM 实例 空间 时 
回收 并 被 释放 


coe || 5,VM 服 务 器 控制 
器 将 回收 的 资源 
返回 资源 池 以 便 
用 于 再 分 配 


图 8.5 简化 的 基于 云 应 用 程序 的 弹性 逆 增 长 
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来 缩小 资源 容量 。 云 0SS 选择 一 个 特定 的 资源 进行 发 布 ， 指 导 新 的 流量 到 其 他 资 
源 ， 停 止 或 是 重新 分 配 所 选 定 资 源 的 用 户 ， 最 后 将 资源 释放 给 架构 服务 提供 者 。 


8.6 弹性 存储 注意 事项 


与 虚拟 机 实例 相 比 ， 持 久 性 使 虚拟 化 存储 成 为 一 个 完成 不 同类 型 的 资源 。 例 
如 ， 可 能 很 少 会 有 用 户 在 早上 2 点 登录 使 用 一 个 社交 网 站 ， 因 此 只 需要 几 个 虚拟 机 
实例 去 服务 用 户 负 载 即 可 ， 所 有 用 户 的 照片 、 视 频 、 博 客 和 其 他 个 人 信息 必须 妥善 
存储 。 分 配给 云 应 用 的 持久 性 存储 也 可 以 增长 ,但 是 这 通常 很 少 发 生 。 在 线 容量 需 
求 通常 会 有 从 高 到 低 的 使 用 周期 通常 持久 性 存储 需要 的 是 增长 而 不 是 减少 。 

持久 性 存储 一 般 可 以 分 解 为 传统 应 用 服务 配置 意义 上 的 网 络 外 部 存储 阵列 ， 网 
络 附加 存储 或 外 部 数据 库 服务 器 。 传 统 的 允许 应 用 程序 使 用 外 部 持久 存储 〈 例 如 
网 络 文件 系统 NFS) 的 机 制 通常 可 以 进行 存储 的 水 平 增 长 ， 例 如 通过 挂 载 一 个 新 的 
存储 设备 与 现 有 的 存储 设备 并 用 ， 或 重新 配置 网 络 存 储 设备 ， 使 其 从 挂 载 一 个 较 小 
的 存储 容量 变 为 较 大 的 容量 。 

如 果 应 用 没有 足够 的 持久 存储 容量 ， 那 么 当 应 用 实例 上 线 时 ， 可 能 会 被 迫 创建 

一 个 新 的 应 用 实例 并 分 配 一 个 大 的 持久 性 存储 。 例 如 ， 如 果 一 个 应 用 程序 不 允许 一 

个 数据 库 实 例 在 初始 安装 后 改变 其 大 小 ， 那 么 增 大 数据 库 实 例 可 能 需要 重新 安装 应 
用 并 创新 一 个 更 大 的 数据 库 实例 ， 然 后 导 大 原始 数据 库 实例 的 数据 。 幸 运 的 是 ， 云 
计算 针对 这 类 软件 发 布 管理 问题 提供 了 新 的 解决 办 法 ， 通 过 发 布 管理 操作 可 以 减少 
对 用 户 服务 的 影响 。 有 关 这 部 分 内 容 将 在 第 9 章 “ 发 布 管理 ”中 讨论 。 


8.7 弹性 和 过 载 


传统 上 ， 当 工作 负载 超出 了 在 线 应 用 的 容量 、 应 用 会 启动 拥塞 控制 机 制 ， 例 如 
返回 一 些 “TOO BUSY” 的 指示 信息 让 用 户 减 少 工作 负载 或 暂停 低 优先 级 、 高 资源 
消耗 的 活动 。 应 用 会 继续 服务 一 些 高 优先 级 的 流量 ， 直 到 过 载 条 件 清 除 ， 应 用 恢复 
到 正常 状态 

快速 弹性 机 制 改 变 这 种 传统 过 载 处 置 方式 ， 因为 应 用 的 容量 可 以 弹性 增长 最 小 
化 了 在 线 应 用 容量 不 足以 服务 所 需 负 载 的 风险 。 如 果 配 置 时 间 间 隔 (提供 所 需 容量 
的 时 间 ) 足够 得， 并 且 云 用 户 建 立 了 快速 检测 和 触发 在 线 弹 性 增加 空闲 容量 的 操作 策 
略 ， 那 么 负载 超出 在 线 容量 的 情况 应 该 是 极 少 的 。 不 可 避免 的 是 ， 偶 尔 会 有 异常 事件 导 
致 工作 负载 增加 ， 快 于 配置 时 间 间 隔 ， 那 么 应 用 程序 必须 在 采用 弹性 增长 操作 的 同时 再 
激活 过 载 控制 机 制 ， 来 尽 最 大 的 努力 为 用 户 提供 服务 ， 直 到 充足 的 应 用 容量 上 线 。 

需要 注意 的 是 ， 在 过 载 事 件 发 生 期 间 ， 弹 性 增长 会 比 正常 操作 更 为 复杂 和 人 危险 
(会 有 较 高 的 故障 率 ) ， 因 为 : 
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1) 拥塞 控制 是 活动 的 ， 那 么 一 些 工作 会 被 明确 地 拒绝 。 活 动 的 拥塞 控制 将 导 
致 服务 器 和 客户 端的 行为 稍微 有 所 不 同 ， 例 如 会 执行 不 同 的 代码 片段 ， 这 会 增加 暴 
露 已 有 代码 缺陷 的 风险 。 应 用 程序 架构 师 必须 小 心 以 确保 在 过 载 时 期 没有 与 弹性 增 
长 相关 的 操作 被 拥塞 控制 机 制 所 拒绝 ， 以 防止 出 现 死 循环 ， 导 致 请 求 被 屏蔽 ， 在 线 
容量 增长 操作 不 能 成 功 完成 ， 因 为 关键 操作 被 过 载 控制 机 制 拒绝 了 。 

2) 过 载 情 况 可 能 会 伴随 着 被 降低 的 性 能 ， 例 如 延长 了 完成 时 间 ， 所 以 应 用 可 
能 会 变 得 更 加 缓慢 ， 应 用 程序 的 配置 时 间 间 隔 可 能 会 被 降级 。 如 果 又 不 能 很 好 地 调 
整 守 护 定时 器 ， 可 能 还 会 加 重 过 载 情 况 ， 导 致 客户 端 重 试 操作 缓慢 ， 从 而 将 应 用 程 
序 推 和 深度 过 载 状 态 

3) 过 载 情 况 可 能 会 导致 虚拟 机 故障 或 状态 不 佳 。 对 于 种 情况 ， 应 用 服务 恢复 
( 如 故障 转移 到 另 一 个 虚拟 机 实例 ) 或 修复 〈 例 如 杀 死 错误 的 虚拟 机 实例 ， 在 另 一 
个 服务 器 上 启动 一 个 新 的 虚拟 机 实例 ) 技术 应 该 被 采用 。 

4) 弹性 增长 操作 自身 会 在 一 些 应 用 服务 器 组 件 上 填 加 一 些 额 外 的 工作 负载 ， 
这 些 额外 的 工作 负载 可 能 会 加 剧 过 载 。 

因此 ， 弹 性 快速 增长 机 制 的 各 个 方面 应 该 设计 得 非常 可 靠 ， 即 使 应 用 程序 持续 
过 载 也 没有 问题 。 同 样 地 ， 应 用 程序 过 载 控制 机 制 应 该 足够 聪明 ， 当 充足 的 在 线 应 用 
容量 已 经 被 添加 到 服务 中 ， 能 够 提供 可 接受 的 服务 质量 时 ， 应 该 禁用 任何 拥塞 控制 。 

应 用 程序 应 该 弹性 地 增长 到 它们 允许 的 最 大 容量 ， 以 减轻 过 载 情况 ， 至 少 一 些 
用 户 可 能 会 经 历 不 理想 的 服务 (如 收 到 信息 提示 “ 太 忙 了 ”， 这 对 于 大 多 数 用 户 来 
说 不 能 算是 理想 的 服务 ) 。 通 常情 况 下 ， 云 消费 者 负责 定义 操作 策略 ， 如 维持 多 少 
在 线 空闲 容量 ， 什 么 时 候 触发 弹性 容量 增长 操作 。 如 果 用 户 服务 被 影响 是 因为 云 消 
费 者 的 策略 过 于 倾斜 ， 导 致 在 线 备 用 容量 不 足以 维持 服务 峰值 流量 ， 那 么 对 用 户 服 
务 的 影响 通常 会 归 因 于 云 消费 者 。 如 果 云 消费 者 的 管理 策略 不 正确 地 被 云 OSS 执 
行 ， 那 么 用 户 服务 过 载 的 影响 应 该 归 因 于 OSS, 


8.8 操作 注意 事项 


弹性 增长 操作 可 能 会 由 于 下 列 原 因 之 一 而 被 触发 : 

© 应 用 程序 服务 性 能 下 降 ， 因 为 工作 负载 密度 太 高 ( 详 见 2.5.2.2 市 和 3.5.1 
节 ) ， 所 以 需要 添加 额外 的 在 线 容量 以 降低 密度 。 

。 空闲 容量 上 线 。 图 8. 1 的 例子 中 在 上 午 5 到 10 点 之 间 ， 工 作 负 和 载 经 历 了 剧 
烈 的 增长 ， 所 以 额外 的 容量 可 以 提前 上 线 ， 以 确保 有 足够 的 容量 来 服务 用 
户 流量 并 有 可 接受 的 服务 质量 。 注 意 ， 上 线 的 空闲 容量 还 可 以 支持 一 些 意 
想不到 的 流量 高 峰 ， 如 图 8. 6 所 示 。 

。 设计 容量 超过 策略 装 值 。 应 用 提供 商 和 /或 云 消费 者 的 策略 可 能 会 指定 每 个 资源 
实例 支持 不 超过 “X” 个 在 线 用 户 ， 因 此 当 在 线 用 户 的 数量 达到 一 个 “N” 售 
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图 8.6 不 稳定 的 工作 负载 变化 示例 (线性 尺度 ) 
以 上 “X” 时 , 那么 (N+1) 号 资源 实例 会 弹性 增长 以 避免 超出 策略 限制 。 


。 严重 故障 事件 减少 了 在 线 容量 ， 因 此 容量 增长 操作 被 执行 ， 以 替代 丢失 的 
服务 或 空闲 的 容量 。1 + 1 元 余 系 统 通常 会 在 组 件 故 障 时 间 与 故障 容量 被 蔡 
换 这 段 时 间 里 有 较 高 的 服务 风险 〈 称 为 “单一 曝露 ) ， 因 为 如 果 在 被 第 一 


次 故障 影响 的 容量 被 修复 之 前 ， 发 生 第 二 次 故障 ， 这 种 不 断 延 长 的 中 断 ， 
服务 会 变 得 很 脆弱 。 | 


通常 ，O0SS 会 主动 监控 所 提供 的 负载 ， 历 史 流 量 模式 ， 应 用 程序 性 能 和 其 他 因 


素 ， 从 而 可 以 做 出 一 个 短期 的 负载 预测 ， 如 果 在 线 的 应 用 容量 不 足以 满足 所 预测 的 


工作 人 负载， 启动 一 个 弹性 增长 操作 ,并且 维持 足够 的 “备用 ”在 线 容量 ， 以 应 对 


故障 和 瞬间 负载 高 峰 事 件 。 这 个 OSS 遵循 如 图 8.7 所 示 的 过 程 ， 该 过 程 由 一 个 单 


独 的 负责 容量 管理 的 团队 的 设计 。 


监测 负载 和 资源 
使 用 状况 





图 8.7 典型 的 弹性 编排 过 程 
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8.9 ”负载 拉锯 


《 韦 氏 词典 》 中 从 投资 者 角度 定义 术语 “拉锯 ”的 意义 是 “通过 一 个 两 阶段 操 
作 ， 或 两 个 对 手 的 共同 行为 ， 以 两 种 截然 相反 的 方式 施加 困扰 或 伤害 ” 。 这 一 概念 
也 戏剧 性 地 适用 于 工作 负载 的 变化 ， 如 图 8. 8 所 示 在 晚上 10:45 所 发 生 的 事件 。 当 
拉锯 流量 的 尖峰 出 现在 10:45 左右 ， 弹 性 OSS 可 能 会 减少 在 线 容 量 。 理 想 情 况 下 ， 
弹性 0SS 和 应 用 程序 应 该 立即 取消 所 有 还 未 实施 的 削减 操作 ， 然 后 立即 启动 弹性 
增长 机 制 来 解决 这 样 的 流量 高 峰 。 这 引出 了 三 个 架构 原则 。 





60000 在 明显 的 每 日 流量 
50000 衰减 中 10:45pm 左 

右 工作 负载 会 出 现 
40000 一 次 翻 倍 的 情况 





30000 
20000 
10000 
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G D ee a» ES G S 
% Pay Pa, Pay Pog r Me, Pay Me 
图 8.8 工作 负载 拉锯 示例 


1) 支持 对 正 待 执行 的 在 线 容量 缩减 操作 的 快速 取消 。 

2) 弹性 请 求 不 应 按 应 用 或 弹性 OSS 进行 排队 ， 因 为 从 请 求 列 中 移 除 时 ， 弹 性 
操作 可 能 不 再 适用 了 。 

3) 当 大 量 的 容量 增长 操作 不 能 同时 执行 时 ， 支 持 使 用 不 同 的 容量 增长 粒度 会 
非常 有 有 用。 例如， 如果 应 用 程序 只 允许 一 个 虚拟 机 实例 在 线 容量 增长 一 次 ， 那 么 对 
容量 粒度 〈 比 方 说 ， 两 ， 四 或 八 核 CPU) 能 够 弹性 控制 实例 ， 能 够 更 灵活 地 解决 
常规 和 非常 规 事件 (例如 拉锯 事件 ) 。 例 如 当 工 作 负 载 缓慢 增长 时 ， 增 加 两 核 
CPU 虚拟 机 ， 当 工作 负载 正在 冕 升 时 ， 增 加 八 核 CPU 虚拟 机 。 但 是 这 一 优点 还 
需要 评估 监测 资源 使 用 的 复杂 性 ， 以 及 引入 大 量 的 排列 组 合 需要 进行 测试 的 
难度 。 


8. 10 一般 弹 性 风险 


增长 容量 会 给 正 积极 提供 服务 的 在 线 应 用 带 来 一 定 风 险 ， 且 不 同 的 增长 策略 可 
能 会 带 来 不 同 的 风险 : 
。 水 平 增长 通常 是 最 简单 的 策略 ， 因 此 风险 最 低 ， 原 因 如 下 : 
o 新 资源 实例 可 以 创建 和 初始 化 而 不 影响 由 其 他 资源 实例 覆盖 的 服务 ; 
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o 单一 应 用 程序 实例 完全 可 以 管理 容量 增长 操作 。 

问 外 增长 比 水 平 增长 更 复杂 ， 因 此 风险 更 高 ， 原 因 有 以 下 几 点 : 

o 回 外 增长 操作 往往 需要 两 个 数据 中 心 之 间 工 作 流程 的 相互 协调 ， 因 此 复 
杂 性 会 增加 失败 的 风险 ; 

o 向 外 增长 操作 在 之 前 已 经 存在 的 资源 和 新 分 配 的 资源 之 间 插 入 了 一 个 更 
高 的 延迟 ， 且 降低 了 带宽 ,减少 了 网 络 连接 之 间 的 可 靠 性 ; 

© 回 外 增长 操作 可 能 会 有 额外 的 安全 管理 要 求 ， 如 果 过 量 资源 是 在 不 同 的 
网 络 中 ,需要 对 安全 性 和 管理 域 进行 检查 ,但 这 是 在 本 书 讨论 的 范围 
之 外 。 

垂直 增长 通常 是 最 复杂 的 ， 因 为 当 所 设计 的 吞吐 量 (例如 CPU 核 的 数量 ， 

内 存 的 数据 和 网 络 带 宽 ) 或 持久 存储 的 每 个 组 件 实例 动态 变化 时 ， 应 用 程 

序 和 客户 操作 系统 的 配置 信息 也 要 变化 。 需 要 注意 的 是 ， 只 是 分 配给 虚拟 

机 实例 的 网 络 带 宽 发 生变 化 时 ， 从 技术 上 考虑 是 垂直 增长 (或 道 增长 )， 

但 网 络 容量 与 组 件 实例 的 计算 吞吐 量 相 关联 ， 所 以 对 于 应 用 程序 只 改变 一 

种 否 吐 量 相 关 的 容量 ， 几 乎 没有 意义 。 如 果 只 是 增加 一 个 由 虚拟 机 服务 组 

成 的 分 布 式 应 用 的 网 络 容量 ， 那 么 计算 或 存储 资源 可 能 很 快 成 为 瓶 席 ,会 

有 很 多 增加 的 网 络 容 量 被 浪费 。 如 果 网 络 分 配 减少 ， 那 么 网 络 可 能 成 为 容 

量 瓶 贷 ， 那 么 分 配 的 计算 容量 又 会 被 浪费 。 


8. 11 弹性 故障 场景 


弹性 容量 操作 引入 了 需要 进行 检测 和 补救 的 新 的 故障 场景 。 由 于 容量 增长 和 首 
增长 操作 的 失败 场景 各 不 相同 ， 需 要 单独 进行 考虑 。 图 8.9 在 图 8.7 的 基础 上 展示 
了 一 个 高 等 级 的 故障 场景 。 在 第 15.6 节 “ 弹 性 分 析 ” 中 提供 了 一 个 分 析 方 法 ， 当 
面 对 不 可 避免 的 弹性 失败 ， 需 要 设计 应 用 来 验证 可 接受 的 服务 质量 时 ， 可 以 采用 该 
方法 。 


8.11.1 弹性 增长 故障 场景 


成 功 的 弹性 增长 为 应 用 实例 在 一 个 可 接受 的 配置 时 间 内 ， 增 加 了 一 定 的 在 线 服 
务 或 存储 容量 ， 这 样 可 以 给 工作 负载 提供 充足 的 可 用 容量 。 这 里 提出 了 4 个 广泛 存 
在 的 故障 场景 : 

1) 弹性 增长 操作 直接 故障 (第 8. 11.1. 1 节 “ 弹 性 增长 操作 故障 场景 ”) ; 

2) 弹性 增长 配置 间隔 超时 (超出 了 配置 时 间 ) (第 8.11.1.2 节 “超出 配置 间 
隔 场景 ) ; 

3) 弹性 增长 操作 启动 太 晚 (第 8. 11. 1.3 节 “ 增 长 策略 和 操作 故障 场景 " ); 


n 
= 


4 云 应 用 中 的 服务 质量 







hee aE 
[ 检查 错误 数据 ”| TOREA 应 用 程序 架构 是 非 弹性 的 
使 用 状况 RESI h 
错误 的 管理 决策 能 力 人 


是 的 ， 增 加 容量 容量 变化 是 的 ， 减少 容 量 
不 可 靠 的 是 否 必须 ? 
增长 操作 ; 不 可 靠 的 
负增长 操作 









不 包含 laaS 资 源 短缺 


当 超 过 1aaS 提 供 商 的 
容量 时 云 会 突然 失效 


图 8.9 弹性 增长 失败 场景 


4) 工作 负载 增长 速度 比 应 用 快 ~( 第 8. 11. 1.4 节 “ 保 持 不 充足 的 在 线 空闲 
容量 ”) 。 
$8. 11. 1.1 弹性 增长 操作 故障 场景 

请 求 为 一 个 特定 的 应 用 实例 执行 一 个 特定 的 弹性 增长 操作 ， 可 能 未 能 成 功 完 
成 ， 会 有 以 下 几 个 原因 

1) 已 经 达到 了 应 用 程序 实例 的 最 大 容量 限制 。 云 服务 提供 商 提供 了 资源 似乎 
是 无 限 的 这 样 一 个 假象 ， 现 实 应 用 中 的 单个 应 用 程序 实例 不 可 能 无 限 弹 性 增长 。 当 
一 个 应 用 程序 实例 达到 最 大 许可 值 或 架构 上 限时 ， 那么 它 应 该 禁止 额外 的 容量 增 
长 ， 通 过 激活 负载 控制 机 制 来 管理 过 多 的 负载 。 理 想 情 况 下 ， 云 消费 者 会 有 相关 策 
略 和 步骤 ， 或 者 实例 化 一 个 新 的 应 用 程序 实例 或 者 转移 工作 负载 到 男 一 个 具有 闲置 
容量 的 应 用 程序 实例 。 

2) 云 服务 提供 商 未 能 提供 所 请 求 的 资源 。 云 服务 供应 商 可 能 无 法 提供 能 够 
满足 应 用 程序 的 约束 条 件 的 资源 ( 如 资源 的 容量 /尺寸 规范 ， 遵 守 相 关 性 或 反 相 
关 性 规则 ， 在 消费 者 的 预算 /业务 之 间 )， 因 此 应 用 程序 实例 的 增长 操作 将 会 
失败 。 

3) 应 用 软件 故障 。 在 容量 弹性 增长 操作 过 程 中 ， 应 用 软件 的 缺陷 或 一 个 技术 
组 件 发 生 故 障 ， 从 而 阻止 成 功 完 成 增长 操作 。 
8.11.1.2 超出 配置 间隔 场景 

应 用 程序 的 弹性 增长 操作 可 能 需要 比 预期 更 长 的 时 间 才 能 完成 ， 原 因 如 下 : 

1) 因为 沉重 的 总 负载 ， 云 服务 提供 商 提供 所 请 求 的 资源 的 速度 很 慢 。 
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2) 因为 沉重 的 用 户 工 作 负 载 ， 应 用 实例 很 慢 。 

3) 因为 有 大 量 的 数据 要 处 理 和 配置 ， 应 用 实例 很 缓慢 。 
8.11.1.3 增长 策略 和 操作 故障 场景 

弹性 增长 操作 名 义 上 需要 一 段 时 间 间 隔 才能 完成 ， 所 以 增长 操作 必须 至 少 配置 
一 个 时 间 间 隔 ， 且 要 在 所 增加 的 容量 为 负载 提供 服务 之 前 。 云 消费 者 会 部 署 操 作 策 
略 以 维持 足够 的 空闲 容量 来 减轻 瞬 态 流量 峰值 和 不 可 避免 的 失败 场景 。 如 果 云 消费 
者 所 维持 的 在 线 闲置 容量 不 足 ， 那 么 一 个 组 件 故 障 或 瞬 态 负载 峰值 可 能 导致 应 用 暂 
时 过 载 ， 至 少 会 有 一 些 用 户 的 服务 质量 会 受到 影响 ， 这 种 影响 直到 额外 的 应 用 容量 
上 线 才 会 消除 。 同 样 ， 如 果 云 消费 者 的 策略 是 保持 不 充足 的 过 剩 容量 ， 并 且 不 能 准 
确 地 短期 预测 工作 负载 ， 那 么 所 提供 的 负载 可 能 很 容易 就 会 超出 在 线 应 用 的 容量 。 
从 本 质 上 讲 ， 云 消费 者 打赌 他 们 能 够 准确 地 预测 短期 的 工作 负载 。 云 消费 者 越 能 准 
确 地 预测 未 来 的 工作 负载 ， 就 会 有 越 少 的 在 线 闲置 容量 ( 除 此 之 外 ， 还 需要 减少 
不 可 避免 的 故障 ) 。 
8. 11. 1.4 保持 不 充足 的 在 线 空闲 容量 

在 第 3. 5.7 节 “ 转 换 速 率 和 线性 率 ”中 讨论 了 应 用 程序 的 所 谓 增长 率 。 所 谓 
增长 率 是 用 增长 的 容量 (Con) 除 以 配置 间隔 。 如 果 工 作 负 载 增长 速度 超过 名 义 
上 应 用 增长 率 的 时 间 足 够 长 ， 那 么 就 会 出 现 不 充足 的 应 用 在 线 容量 服务 所 需 负 载 的 
情况 。 云 消费 者 负责 维持 足够 的 在 线 备 用 容量 ， 这 样 即使 负载 增长 速度 在 一 段 时 间 
内 比 应 用 程序 的 最 大 增长 率 还 快 ， 足 够 的 在 线 闲 置 容量 就 会 被 使 用 ， 这 样 用 户 工作 
负载 就 不 会 超过 在 线 容量 。 如 果 提 供 的 负载 超过 在 线 应 用 容量 ， 那 么 应 用 程序 应 该 
进行 过 载 控 制 ， 可 能 会 拒绝 一 部 分 的 用 户 流量 。 


8.11.2 弹性 容量 逆 增 长 故障 场景 


弹性 容量 逆 增 长 期 间 ， 服 务 的 风险 源 于 以 下 几 点 : 

1) 从 被 回收 的 资源 中 没 能 排出 用 户 流 量 。 排 出 用 户 流 量 显然 是 一 个 微妙 的 过 
程 ， 失 败 可 能 会 直接 影响 一 个 或 更 多 用 户 的 体验 质量 ， 例 如 当 活 动用 户 的 会 话 被 强 
制 终 止 ， 会 产生 服务 的 留存 问题 。 

2) 应 用 无 法 停止 使 用 回收 的 资源 。 如 果 应 用 程序 没有 正确 跟踪 被 回收 释放 的 
资源 ， 那 么 额外 的 流量 可 能 会 被 发 送 到 停 用 甚至 是 已 重新 分 配 的 资源 ， 只 能 让 流量 
被 丢弃 ， 这 会 导致 用 户 经 历 服务 可 靠 性 退化 、 延 迟 或 整个 服务 质量 下 降 等 一 系列 
问题 。 

3) 等 待 执行 /失效 的 弹性 递增 长 操作 延迟 /弹性 增长 操作 死 锁 。 如 果 在 释放 回 
收 期 间 流量 激增 ， 那 么 一 个 弹性 增长 操作 可 能 被 触发 。 如 果 一 个 弹性 增长 操作 不 能 
覆盖 一 个 等 待 回 收 操作 或 是 一 个 等 待 回收 操作 不 能 被 取消 ， 那 么 应 用 程序 可 能 会 被 
迫 超人 负荷 ， 直 到 资源 回收 释放 完成 ， 增 长 操作 可 以 开始 执行 。 

有 序 取消 等 待 执 行 的 逆 增 长 操作 本 身 不 算是 失败 。 快 速 、 清 晰 地 取消 在 线 等 待 
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的 容量 逆 增 长 操作 是 非常 复杂 的 事情 ， 为 此 应 用 程序 应 该 经 过 设计 和 测试 ， 以 确保 
逆 增 长 事件 可 以 迅速 、 可 靠 地 取消 ， 这 样 后续 增 长 操作 就 能 够 可 靠 地 完成 。 回 收 资 
源 的 泄漏 是 一 个 商业 风险 ， 即 应 用 程序 成 功 地 释放 了 资源 ， 但 资源 没 能 重新 由 云 服 
务 提供 商 重新 分 配 。 虽 然 资源 泄漏 不 会 影响 用 户 服务 ,但 它 会 引起 消费 者 的 资金 
消耗 。 


BIR 发 布 管理 


“发 布 管理 ”一 般 被 用 在 IT 以 构 库 中 ， 是 指 计划 、 执 行 、 分 发 控制 和 安 匀 新 
的 、 有 变化 的 软件 。 发 布 管理 的 一 个 关键 部 分 就 是 软件 的 升级 。 这 部 分 主要 探讨 软 
件 升级 的 传统 策略 并 提供 一 个 替代 策略 方案 ， 这 个 策略 利用 云 机 制 来 减轻 一 些 由 软 
件 升级 所 带 来 的 风险 。 


9.1 相关 术语 


软件 升级 包括 新 版 软件 的 安 沪 和 对 应 用 数据 框架 的 升级 ,通常 为 了 以 引入 新 的 
特性 ， 修 复 bug， 以 及 部 署 其 他 新 的 更 新 等 。 软 件 升 级 需要 包括 以 下 几 点 : 
© 软件 补丁 或 者 软件 更 新 。 指 的 是 不 引起 功能 变化 或 者 不 改变 数据 模型 ， 例 
如 bug 修复 或 者 安全 补丁 。 
© 软件 升级 。 指 的 是 软件 比较 大 的 改变 ， 功 能 性 的 改变 或 者 引起 数据 模式 的 
改变 。 
。 改 造 。 在 传统 意义 上 ， 改造 是 指 软 件 实 质 性 的 改变 ,结构 上 需要 彻底 的 替 
换 ， 甚 至 还 包括 一 些 硬 件 的 改变 。 
由 于 云 将 硬件 与 软件 解 贿 ， 传 统 意 义 上 对 硬件 和 软件 的 改造 就 不 再 适用 了 。 回 
退 和 回 滚 是 对 软件 的 “有 害 ” 升 级 修复 操作 ， 一 般 定义 如 下 : 
。 一 个 软件 发 布 的 回 退 包括 新 版 软件 发 布 之 前 的 软件 和 数据 的 改变 复原 。 
。 一 个 软件 发 布 的 回 滚 是 指 修复 发 布 新 版 本 前 的 旧版 本 的 数据 和 功能 。 
软件 升级 也 会 涉及 到 维护 与 同步 持久 动态 的 数据 。 持 久 性 的 数据 是 指 保存 时 间 
超过 一 定时 间 的 数据 ， 例 如 用 户 数据 。 动 态 数据 则 是 相对 短暂 的 数据 ， 例 如 状态 数 
据 ， 只 会 保存 一 段 时 间 。 
这 两 种 类 型 的 数据 在 软件 升级 的 时 候 都 要 考虑 到 。 


9.2 传统 的 软件 升级 策略 


传统 的 应 用 程序 部 署 只 涉及 有 限 的 硬件 资源 ， 所 以 软件 升级 必须 在 特定 的 硬件 
设施 上 完成 。 基 于 有 限 的 硬件 资源 ， 有 两 个 基础 的 软件 升级 策略 : 
。 离线 软件 升级 。 软 件 升 级 过 程 是 离线 完成 的 。 因 此 ， 离 线 升 级 时 间 是 一 个 
关键 的 参数 ， 但 是 这 个 过 程 相 对 来 说 是 简单 的 ， 因 为 在 升级 的 过 程 中 设备 
是 没有 任何 操作 的 。 
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© 在 线 软件 升级 。 高 度 可 用 的 系统 通常 保持 足够 的 软件 元 余 ， 使 得 系统 逻辑 


上 可 以 分 裂 成 两 个 简单 的 系统 ， 每 个 可 以 单独 升级 。 这 种 模式 使 得 应 用 程 
序 在 软件 升级 过 程 中 出 现 单一 紧 露 问题 ， 如 果 一 旦 升级 出 现 错误 ， 将 会 使 
得 整个 升级 过 程 时 间 延 长 。 这 个 策略 比 离线 升级 更 加 复杂 。 


9.2.1 软件 升级 需求 


企业 通常 期 望 对 重要 应 用 程序 的 软件 升级 尽 可 能 减 小 对 用 户 的 困扰 ; 更 具体 
说 ， 这 通常 是 指 用 户 服务 尽 可 能 短 的 被 干扰 ， 限 制 在 几 秒 钟 之 内 。 理 想 状 态 下 ， 用 
户 会 话 或 者 事务 会 被 保留 ， 但 是 对 于 非 重要 的 用 户 应 用 则 可 以 终止 其 服务 。 与 其 他 
相同 服务 质量 相 比 ， 用 户 不 太 可 能 能 够 承受 云 应 用 比 普 通 应 用 还 大 的 风险 。 

传统 的 软件 升级 需求 还 要 包括 以 下 几 点 : 


“浸泡 ”新 版 本 以 确保 发 布 之 前 能 够 正常 的 执行 新 功能 。 偶 然 情况 下 ， 一 个 
新 软件 的 升级 会 与 现 有 的 应 用 、 用 户 习 惯 或 者 其 他 操作 特性 相 冲 突 ， 所 以 
在 特定 的 场合 下 有 可 能 是 不 能 够 兼容 的 。 用 户 通常 通过 一 段 时 间 内 充分 地 
运行 实例 来 验证 新 版 本 的 稳定 性 。 在 传统 高 可 用 性 结构 中 ,“ 浸 泡 ”是 指 不 
包括 宛 余 来 运行 实例 。 

一 种 能 够 回 退 “有 害 ” 版 本 或 回 滚 到 之 前 版 本 的 能 力 。 如 果 一 个 新 的 版 本 
是 不 可 用 的 或 者 是 不 兼容 的 ， 那 么 企业 用 户 会 希望 回 滚 到 之 前 的 版 本 。 实 
际 操作 上 ， 这 意味 着 要 有 充足 的 时 间 来 初始 化 “浸泡 ”实例 来 验证 新 发 布 
的 版 本 是 否 有 效 ， 然 后 要 有 充足 的 时 间 在 当前 升级 窗口 未 被 关闭 之 前 回 深 
到 之 前 的 版 本 上 。 

为 了 减少 升级 带 来 的 组 件 间 的 干扰 ， 要 提供 新 旧版 本 之 间 的 兼容 支持 。 新 
功能 特性 要 能 够 很 好 的 和 其 他 的 组 件 相 结合 。 

跳 过 新 版 本 的 能 力 ( 例 如 从 版 本 “N” 直 接 跳 到 “N +3”) 。 不 是 每 个 用 户 
都 出 于 实用 、 商 业 角 度 、 或 者 操作 原因 来 接受 新 版 本 。 有 些 时 候 ， 大 多 数 
用 户 都 被 设想 成 愿意 去 升级 ， 然 后 他 们 选择 了 忽略 升级 ， 意 味 着 忽略 了 从 
版 本 N 升级 到 N+ 1 版 本 。 跳 过 版 本 为 企业 提供 的 实际 好 处 是 ,减少 了 成 
本 支出 以 及 伴随 着 每 一 个 版 本 的 安装 所 带 来 的 服务 中 断 ， 尽 管 跳 过 版 本 自 
身 也 有 成 本 支出 。 例 如 ， 一 个 用 户 安装 版 本 2.0， 然 后 跳 过 了 3.0 和 4.0 版 
本 ， 然 后 想 接受 5.0 版 本 ， 这 种 情况 下 ， 保 证 新 旧 多 版 本 之 间 的 兼容 性 就 
更 加 困难 ， 因 为 外 部 接口 和 数据 结构 通常 在 一 段 时 间 内 会 根据 新 用 户 的 需 
求 特征 做 很 大 的 改动 。 数 据 的 升级 可 能 必须 要 经 过 每 个 版 本 ， 需 要 较 长 的 
时 间 。 


由 于 考虑 到 花费 和 对 用 户 潜在 的 影响 ， 高 级 用 户 通常 会 有 以 下 的 要 求 : 


完成 升级 的 能 力 ， 如 果 有 必要 的 话 还 要 在 同一 个 窗口 之 内 包含 回 滚 功 能 。 因 
为 传统 的 软件 升级 会 引起 大 的 服务 冲突 ， 如 果 不 成 功 可 能 导致 应 用 单一 骏 露 
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问题 或 容量 的 降低 ， 所 以 软件 升级 一 般 在 低 使 用 率 期 间 执行 维护 活动 。 
为 了 提供 健壮 的 软件 升级 ， 通 常 要 做 到 以 下 几 点 : 
© 用 户 要 有 干预 新 旧版 本 应 用 实例 的 权限 。 
© 为 了 支持 新 旧 应 用 版 本 的 实例 ， 架 构 (TaaS) 必须 提供 充足 的 资源 (如 网 
i. Rii, CPU, AFFE IP Hh) o 
© 在 新 旧版 本 都 存在 时 ， 软 件 允 可 要 同时 适用 于 两 者 。 
© 旧版 本 的 虚拟 应 用 实例 要 能 够 被 关闭 ， 同 时 不 引发 运行 期 间 其 他 的 错误 。 
通过 利用 云 和 虚拟 化 ， 宕 机 时 间 可 以 减少 ， 而 且 在 某 些 情况 下 ， 能 被 消除 。 尤 
其 是 可 以 自动 地 在 任何 时 间 进 行 软件 升级 ， 而 不 必 在 维护 窗口 期 间 ， 从 而 变 得 更 健 
壮 。 需 要 注意 的 是 ， 不 影响 服务 的 升级 需要 在 单独 的 维护 窗口 之 前 和 之 后 做 好 准备 
和 后 续 工 作 。 


9.2.2 维护 窗口 


维护 窗口 目的 是 为 了 减少 用 户 的 损失 ， 当 遇 到 不 可 知 的 错误 或 者 服务 不 可 用 时 
提前 安排 一 段 空 档 时 间 。 维 护 窗口 通常 在 用 户 活跃 量 很 少 的 时 候 才 安排 维持 一 段 
时 间 。 对 于 传统 的 系统 ， 软 件 升 级 往往 有 许多 手动 操作 过 程 ， 会 影响 用 户 服 务 ， 因 
而 会 在 维护 窗口 期 间 执行 。 企 业 用 户 往往 通知 预定 的 维护 窗口 时 间 ， 关 键 应 用 的 服 
务 可 能 会 受到 影响 ， 使 他 们 能 够 制定 相应 的 计划 。 客 户 喜 欢 尽 可 能 少 地 执行 这 些 升 
级 ， 因 为 升级 需要 维护 会 话 且 可 能 导致 服务 中 断 。 
便捷 性 和 其 他 现代 化 的 发 展 经 验 让 “持续 部 署 ” 的 模式 非常 流行 ， 该 模式 中 
软件 自动 每 天 完成 一 次 构建 ， 安 装 在 云 中 ， 通 过 丰富 的 自动 化 测试 脚本 进行 测试 ， 
自动 “浸泡 ”在 一 部 分 实时 流量 中 ， 然 后 让 有 所 有 新 的 用 户 流量 迁移 到 的 新 版 本 。 
由 于 持续 部 署 模式 中 ， 构 建 /安装 /验证 /激活 这 一 过 程 每 天 都 在 发 生 ， 有 强大 的 业 
务 流程 机 制 的 支撑 ， 这 些 过 程 很 快 就 会 变 得 非常 可 靠 。 至 少 有 一 些 组 织 会 改变 他 们 
已 有 的 “安装 /验证 /激活 ”过 程 到 “构建 /安装 /验证 /激活 ”过 程 上 来 ， 因 此 在 工 
作 时 间 内 (例如 ， 开 始 于 当地 时 间 上 午 9 点 ) ， 就 可 以 使 开发 人 员 和 其 他 专家 立即 
进行 调试 ， 并 提供 纠正 任何 交付 问题 。 这 种 模式 可 以 通过 : 
。 大 大 缩短 部 署 时 间 ， 为 新 更 改 的 功能 提高 服务 灵活 性 ; 
。 通过 快速 bug 修复 ， 稳 定性 改进 和 安全 补丁 提高 服务 质量 ; 
。 通过 将 发 布 管理 活动 移出 昂贵 的 工作 时 间 段 (例如 ， 加 班期 间或 双 倍 工资 
期 间 ) 减少 OPEX; 
。 提高 升级 成 功率 ， 因 为 频繁 执行 可 以 快速 提高 成 熟 度 和 可 靠 性 。 将 工作 从 
半夜 (例如 ， 当 地 时 间 午 夜 到 早上 6 点 ) 转移 到 正常 工作 时 间 内 可 以 减少 
人 为 错误 的 风险 ， 也 进一步 提高 了 “程序 员 / 程 序 ” 支 持 发 布 管理 的 可 
靠 性 。 
因此 ， 从 云 应 用 的 角度 来 看 ， 传 统 的 通过 维护 窗口 进行 软件 升级 的 方式 可 能 在 
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未 来 成 为 过 时 的 方式 ， 甚 至 可 能 是 无 法 接受 的 。 
9.2.3 应 用 升级 的 客户 端 注意 事项 


应 用 的 升级 很 重要 ， 可 以 最 在 程度 地 维持 客户 端 软件 的 兼容 性 (例如 客户 端 
软件 正在 从 一 个 接口 组 件 或 外 部 用 户 端 请 求 服 务 ) ， 最 大 限度 地 减少 对 用 户 服务 的 
影响 以 及 重新 配置 客户 端 软 件 的 操作 费用 。 应 用 协议 和 客户 端 软件 应 支持 服务 过 
渡 ， 如 服务 器 启动 的 会 话 连接 断 开 或 闲置 超时 ， 应 自动 将 客户 端 会 话 重 新 连接 ， 这 
样 客 户 可 以 以 最 小 的 影响 从 旧版 本 过 渡 到 新 版 本 。 如 果 不 能 保证 兼容 性 ， 那 么 升级 
过 程 可 能 需要 考虑 升级 的 顺序 ， 版 本 差异 和 御 载 一 些 功能 特征 ， 以 解决 不 兼容 问 
题 。 理 想 的 情况 下 ， 新 的 软件 版 本 发 布 需要 文 持 以 下 几 点 : 

1) 升级 应 用 程序 与 现 有 接口 客户 端 软 件 具 有 100% 的 协议 兼容 性 ， 客 户 端 软 
件 能 够 成 功 地 与 新 版 本 的 应 用 程序 进行 交互 ， 不 需要 有 任何 更 改 。 如 果 协 议 兼 容 性 
是 有 保证 的 ， 那 么 客户 端 在 同一 时 间 既 可 以 与 旧版 本 交互 也 可 以 与 新 的 应 用 程序 版 
本 交互 的 策略 就 可 以 实现 。 

2) 升级 应 用 程序 的 客户 端 配 置 是 100% FRA (例如 DNS 名 称 和 /或 IP 地 址 )， 
为 此 由 客户 端 软件 使 用 和 保存 的 任何 配置 信息 必须 进行 修改 。 如 果 客 户 端 的 配置 信 
息 发 生变 化 ， 则 必须 执行 这 些 变化 的 配置 ， 让 其 对 客户 端 发 生 作 用 ， 这 很 可 能 是 既 
增加 了 软件 升级 的 运营 成 本 ， 又 增加 用 户 服务 受 影响 的 风险 。 


9.2.4 传统 的 离线 软件 升级 


本 书 中 最 简单 的 升级 策略 ( 见 图 9. 1) 被 称 为 传统 的 离线 升级 ， 具 有 以 下 几 个 
基本 步骤 . 

。 使 应 用 程序 实例 脱 机 ， 以 节省 流量 ; 

© 安装 新 版 本 软件 (例如 N+1, 了 为 一 个 或 多 个 版 本 ,假设 N 和 了 之 间 是 回 

ERA); 

© 升级 持久 性 应 用 数据 ; 

e 和 采用 真实 的 客户 流量 ， 对 新 版 本 进行 浸泡 测试 ， 以 检验 操作 的 正确 ; 

。 激活 GEX) 升级 后 的 应 用 实例 ， 并 把 它 重 新 联机 ， 使 其 继续 提供 服务 。 






| seeeeeeesss aiis: ` bet ; è 
安装 € 进化 \ | 用 测试 流量 运 A | 


| 发布 版 ) | pame ) ENPRE | 
应 用 程序 merae | ” 
实例 下 线 bn oe eaat) 


图 9.1 传统 的 离线 软件 升级 
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因为 应 用 程序 实例 在 软件 升级 期 间 会 离线 ， 所 有 活动 会 话 在 开始 升级 之 前 会 被 
丢弃 ， 用 户 的 服务 变 得 完全 不 可 用 ， 直 到 升级 完成 ， 应 用 程序 重新 上 线 。 

如 果 安 装 新 的 软件 或 升级 持久 性 数据 失败 ， 或 浸泡 测试 发 现 这 个 版 本 是 “有 
害 ” 的 ， 那 么 就 必须 回 退 新 版 本 。 请 注意 ， 回 退 可 能 发 生 在 提交 新 版 本 的 任何 时 
候 。 当 有 足够 的 可 用 持久 性 存储 ， 并 且 应 用 被 正确 设计 ， 离 线 退 出 / 回 滚 可 能 像 重 
新 配置 系统 一 样 简单 ， 例 如 重新 配置 系统 引用 旧 应 用 程序 的 持久 性 存储 〈 如 文件 
系统 或 目录 结构 ) ， 重 新 启动 应 用 程序 或 重新 启动 主机 。 需 要 注意 的 是 ， 在 新 版 本 
使 用 期 间 ， 数 据 的 任何 新 的 改变 将 会 在 退出 / 回 滚 过 程 中 丢失 。 如 果 没 有 足够 的 持 
久 性 存储 ， 可 以 保留 所 有 版 本 的 软件 和 持久 性 数据 ,那么 将 需要 重新 安装 版 本 N 
的 软件 ， 并 从 备份 中 恢复 持久 性 数据 来 完成 退出 / 回 滚 。 


9.2.5 传统 的 在 线 软件 升级 


传统 的 高 可 用 性 系统 会 部 署 足够 的 见 余 硬件 ， 以 防 单 点 故障 引起 功能 性 损失 。 
硬件 元 余 为 软件 升级 创造 了 机 会 ， 应 用 程序 通过 把 系统 分 成 独立 的 “部 分 ”可 以 
一 直 保 持 联机 : 其 中 一 个 “部 分 ”运行 旧版 本 的 软件 另 一 个 “部 分 ” 脱 机 运行 升 
级 到 新 的 版 本 。 一 旦 新 的 版 本 升级 完成 ， 进 行 切换 ， 以 使 新 版 本 运行 。 男 一 “部 
分 ”再 升级 到 新 的 版 本 ， 并 激活 ， 更 新 完成 系统 即 恢复 到 完全 元 余 状 态 。 图 9. 2 
所 示 的 软件 在 线 升 级 的 基本 步骤 如 下 : 

在 线 激活 面 A 停止 面 B 升级 面 B 开始 面 B 






开始 面 A; 同步 数据 
热 备份 面 A 








注 : 激活 是 指 服务 
11.12.13 在 线 


图 9.2 传统 的 在 线 软 件 升级 
1) 让 应 用 程序 实例 运行 的 一 个 “部 分 ”( 在 图 9.2 中 标 为 “B”) 离线 。 请 注 


意 ， 由 于 高 可 用 应 用 实例 配置 了 硬件 元 余 ， 元 余 “ 部 分 ” (如 图 9.2 中 的 标 为 
“A ) 会 保持 在 线 服务 用 户 状 态 。 然 而 ， 由 于 备用 组 件 实 例 “B” 正 在 升级 ， 如 来 
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主 用 组 件 实例 “A” 正 好 发 生 故 障 ， 不 可 以 直接 用 “B” 人 快速 恢复 服务 。 在 这 种 情 
况 下 ， 组 件 〈 或 因此 而 整个 应 用 程序 实例 ) 被 说 成 是 “单一 暴露 " ， 因 为 主 用 组 件 
“A” 的 一 个 单一 故障 会 暴露 系统 于 长 期 服务 中 断 中 ， 因 为 高 可 用 性 机 制 不 能 迅速 
和 自动 地 恢复 服务 到 组 件 正 被 升级 的 “B” 中 。 

2) 在 B 中 安装 新 版 本 的 软件 。 

3) 从 旧版 本 到 新 版 本 升级 持久 性 数据 。 

4) 上 载 升级 数据 到 B。 

5) 激活 B 中 的 新 版 本 软件 。 

6) 在 旧版 本 A 与 B 之 间 同 步 (如 果 需 要 升级 ) 动态 数据 。 

7) 切换 服务 ,使 新 版 本 B 成 为 活动 组 件 ， 并 提供 服务 。 

8) 使 旧版 本 组 件 A 离线 。 

9) 在 A 中 安装 新 版 本 。 

10) 在 A 中 加 载 或 同步 升级 数据 。 

11) 激活 A。 

12) 从 B 中 同步 动态 数据 (注意 ， 步 又 10 和 12 可 以 合并 ) 。 

13) 使 A 进入 “ 热 待机 ”。 

14) Wt: 执行 主 备 切换 ， 使 A 回 到 活动 状态 ， 以 验证 在 新 版 本 进行 切换 是 
否 有 效 。 

一 般 在 新 版 本 已 经 被 激活 后 进行 浸泡 试验 (步骤 7) ， 但 是 在 新 版 本 发 布 之 前 
如 果 出 现 问题 ， 回 退 是 必要 的 。 单 独 一 次 升级 的 时 序 步骤 在 1 ~ 13 中 描述 ， 包 含 软 
件 升 级 时 间 和 浸泡 时 间 。 最 小 化 “单一 暴露 ”时 间 是 很 重要 的 ， 因 为 一 个 单一 部 
件 的 故障 可 能 产生 一 个 持续 的 服务 中 断 ， 直 到 故障 被 修复 。 一 些 应 用 会 要 求 在 整个 
升级 过 程 中 维持 稳定 的 用 户 会 话 并 能 同步 动态 数据 。 如 果 动 态 数 据 结构 发 生 了 变 
化 ， 那 么 在 它 同 步 之 前 必须 进行 升级 ， 从 而 增加 了 更 多 的 复杂 性 。 

提交 并 执行 新 的 版 本 后 如 果 遇 到 严重 问题 时 需要 进行 回 滚 ， 即 执行 反 向 操作 : 
使 A 离线 ， 重 装 旧版 本 的 软件 和 数据 (或 从 旧 的 分 区 中 激活 ， 如 果 它 们 仍然 存 
在 ) ， 把 用 户 服务 切换 到 A, 在 B 重复 执行 以 上 操作 。 宕 机 时 间 通 常 与 软件 升级 时 
间 大 致 一 样 ， 但 如 果 系 统 中 旧版 本 的 软件 和 应 用 程序 数据 不 再 可 用 ， 并 且 数 据 已 经 
发 生变 化 ， 重 建 也 可 能 会 花费 更 长 的 时 间 。 在 回 退 或 回 滚 事 件 中 ， 动 态 数据 都 将 丢 
失 。 如 果 在 新 版 本 提交 之 前 发 现 问题 ， 可 以 在 该 时 刻 执行 回 退 操作 。 退 出 比 回 滚 一 
般 来 讲 更 容易 。 


9.2.6 讨论 


传统 的 软件 升级 策略 通常 有 很 多 很 长 的 人 工 操作 步 又， 这 些 步 又 要 求 与 多 个 系 
统 的 变化 能 够 有 条 不 紊 的 协调 进行 。 大 规模 解决 方案 可 能 需要 数 周 的 维护 时 间 ， 需 
要 以 特定 的 顺序 来 单独 升级 解决 方案 中 各 种 组 件 ， 以 确保 各 元 件 之 间 的 接口 的 正常 
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工作 。 当 解决 方案 中 不 同 组 件 之 间 存 在 依赖 关系 时 ， 软 件 的 升级 变 得 更 加 复杂 ， 并 
可 能 导致 比 高 可 用 服务 更 长 的 单一 暴露 时 间 。 在 升级 过 程 中 必须 尽量 减少 出 现 故障 
的 风险 ,减少 单一 暴露 ， 下 列 优化 技术 经 党 被 采用 : 

© 在 低 流量 时 间 进 行 升级 ， 以 减少 用 户 的 服务 受 影响 的 风险 ， 尤 其 是 如 有 果 在 
升级 过 程 中 失败 。 一 些 系 统 会 暗示 用 户 “ 应 用 程序 将 在 一 段 时 间 内 不 可 
用 ”， 这 样 ， 软 件 可 以 在 这 段 时 间 内 离线 升级 。 

。 用 户 流量 可 能 被 转移 到 一 个 (地 理 上 .) 元 余 系 统 的 实例 上 ， 以 减少 用 户 的 
服务 中 断 ， 并 简化 升级 ， 因 为 应 用 程序 实例 可 以 在 线 下 升级 。 

。 应 用 组 件 被 配置 成 具有 充足 的 备用 磁盘 容量 ， 既 可 以 用 来 存储 新 版 本 的 软 
件 和 更 新 的 数据 ， 又 可 以 保留 先前 版 本 的 软件 和 数据 ， 如 果 有 必要 需要 回 
退 的 话 ， 可 以 迅速 地 执行 。 

。 过 程 是 自动 的 ， 尽 可 能 减少 或 消除 手工 操作 ， 这 样 ， 当 执行 升级 操作 时 ， 
就 能 尽 可 能 缩短 执行 时 间 和 最 小 化 人 工 (程序 ) 的 错误 ， 从 而 减少 单一 
又 露 。 

© 接口 与 客户 端 软件 都 应 向 后 兼容 。 

支持 云 的 软件 升级 策略 (在 第 9.3 节 讨 论 ) 可 以 通过 软件 自动 化 升级 和 完善 

的 软件 升级 管理 ,减少 复杂 性 ， 规 避 传 统 软 件 升 级 的 不 利 风险 。 


9.3 ”支持 云 的 软件 升级 策略 


云 架构 的 快速 资源 弹性 特性 ， 能 够 使 基于 云 的 应 用 软件 在 升级 时 采取 完全 不 同 
的 策略 ， 因 为 用 户 可 以 分 配 足够 的 额外 资源 来 安装 一 个 高 版 本 应 用 程序 的 新 的 独立 
的 实例 ， 并 同时 可 以 运行 以 前 的 完全 元 余 版 本 。 基 本 的 云 感知 策略 可 以 分 配 、 安 
装 、 配 置 和 浸泡 测试 新 的 软件 版 本 实例 ， 并 尽 可 能 最 小 化 对 现 有 的 应 用 程序 实例 的 
干扰 。 以 下 是 两 种 管理 云 软件 升级 的 常规 策略 : | 

。 工 型 : 街区 聚会 (第 9.3.1 节 )。 在 独立 的 虚拟 机 上 运行 的 旧 的 和 新 的 软件 
版 本 同时 服务 于 用 户 流 量 ， 而 理论 上 可 以 继续 这 样 做 下 去 。 一些 用 户 由 旧 
版 本 来 提供 服务 ， 而 一 些 用 户 使 用 新 版 本 的 服务 。 这 种 模式 使 企业 能 够 延 
长 浸泡 测试 时 间 ， 并 通过 从 旧 的 软件 版 本 自然 减少 流量 来 减少 用 户 的 服务 
中 断 。 笔 者 称 这 个 模型 为 “街区 聚会 "， 因 为 软件 版 本 在 认真 协调 下 来 去 
自如 ， 像 客人 在 街区 聚会 一 样 。 
Ta: 每 车 一 司机 〈 第 9.3. 2 节 ) 。 需 要 对 关键 资源 严格 控制 ， 通 常 每 次 允 
许 有 且 只 有 一 个 应 用 程序 实例 是 活动 的 。 这 一 策略 被 用 在 例如 对 数据 库 进 
行 控制 或 需要 严格 一 致 性 资源 的 应 用 程序 实例 中 ， 这 种 策略 任何 时 候 仅 一 
个 单一 的 逻辑 实例 被 允许 运行 。 笔 者 把 这 个 模式 称 为 “每 车 一 司机 ”， 因 
为 它 在 逻辑 上 类 似 于 城市 公交 车 ， 可 带 很 多 人 ， 但 只 有 一 个 人 被 允许 驾驶 。 
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9.3.1 工 型 云 支 持 升级 策略 : 街区 聚会 


I 型 “街区 聚会 ”软件 升级 〈 见 图 9.3) 的 主要 特点 是 能 够 在 同一 时 间 运 行 
虚拟 应 用 实例 的 两 个 新 旧版 本 。 软 件 和 数据 的 新 版 本 被 安装 到 新 的 和 独立 的 云 资 
源 ， 而 旧版 本 在 云 资源 中 运行 。 新 版 本 会 被 分 配 充 分 的 资源 ， 并 被 激活 ， 一 些 用 户 
流量 被 引导 到 新 的 版 本 ， 而 大 多 数 用 户 业 务 由 旧版 本 来 服务 。 这 使 得 新 版 本 可 以 无 
限期 浸泡 。 一 旦 新 版 本 被 认为 是 可 以 接受 的 ， 所 有 新 的 业务 可 以 被 引导 到 新 版 本 的 
虚拟 应 用 程序 中 。 由 旧版 本 服务 的 用 户 流量 可 以 被 自然 而 然 地 随 着 用 户 的 常规 注销 
行为 (随后 的 登录 请 求 定向 到 新 版 本 ) 而 完全 排除 。 如 此 ， 业 务 还 可 以 在 老 版 本 
内 完成 ， 没 有 必要 必须 在 新 版 本 中 完成 ， 应 用 服务 提供 商 可 以 最 终 终 止 剩余 用 户 与 
老 软 件 版 本 的 会 话 。 流 量 由 负载 平衡 器 或 代理 来 控制 ， 它 可 以 将 流量 分 配 到 新 版 本 
的 组 件 中 。 无 论 哪 种 方式 ， 没 有 明确 的 切换 事件 ， 因 此 只 要 应 用 服务 提供 商 愿意 的 
话 ， 业 务 可 以 一 直 在 旧版 本 运行 到 完成 。 因 为 旧版 本 可 以 运行 到 完成 ， 就 没有 必要 
对 新 旧版 本 之 间 的 动态 数据 进行 同步 ， 以 维持 稳定 的 会 话 。 如 果 有 必要 恢复 到 旧 的 
版 本 ， 则 可 将 流量 从 新 版 本 的 应 用 程序 实例 排除 即 可 。 因 为 旧版 本 和 新 版 本 在 同一 
时 间 运 行 所 以 需要 独立 的 IP 地 址 。 然 而 ， 代 理 或 非 代理 负载 均衡 器 可 以 只 公开 一 
个 IP 地 址 ， 并 管理 这 些 版 本 ， 以 便 无 颖 应 用 到 客户 端 。 


所 有 用 户 被 成 功 迁 移 后 ， 
缩减 应 用 程序 实例 资源 
KAPERE “NH” “y” 
应 用 程序 实例 
aa em NO) 












Wr Worn emer Ye 
H . 


: \i 安装 \| \ i 用 测试 流量 
为 新 的 应 用 程序 $ 发 布 版 y kaag ns 
实例 分 配 资源 f ;“N+12 软 件 | f 汕 数 浸泡 测试 


因为 [型 的 升级 能 够 使 发 布 的 “N” 和 “N+7” 版 本 和 平 共 处 ,图 9.4 说 明了 
流量 可 以 逐渐 从 发 布 的 版 本 “N” 重 定 同 到 发 布 的 版 本 “N +7": 

1) 在 版 本 “N +I” 上 创建 并 激活 应 用 程序 实例 。 

2) 菏 些 流量 定 问 到 “N +71” 版 本 的 应 用 程序 实例 上 。 当 新 版 本 的 服务 被 认 害 
是 成 功 的 ， 所 有 新 的 业务 部 被 定 癌 到 新 版 本 。 

3) 在 新 版 本 流量 增加 时 ， 版 本 W +1 的 容量 增加 ,版 本 “N” 的 容量 减少 。 

4) 一 旦 版 本 “N” 的 所 有 活动 已 经 停止 ， 就 关闭 该 应 用 程序 实例 ， 资 源 被 重 
新 分 配 。 


1. 只 有 在 浸泡 测试 允许 的 充裕 容量 下 ， 发 布 版 
“N+]” 的 应 用 程序 实例 才 可 被 创建 

2. 浸 泡 测试 成 功 后 ， 新 的 会 话 将 指向 发 
布 版 “N+1” 应 用 程序 实例 


3. 随 着 客户 端 连接 ， 发 布 版 “N+7 ”的 资源 使 用 
弹性 增加 ， 而 发 布 版 “N” 的 资源 使 用 弹性 缩减 


发 布 版 “N” 在 线 
4. 发 布 版 “N” 应 用 程序 实例 永久 性 停止 并 将 
剩余 资源 重新 分 配 


图 9.4 应 用 程序 弹性 增长 以 及 类 型 1 “街区 聚会 ”升级 


需要 注意 的 是 ， 对 于 I 型 “街区 聚会 "”， 如 果 流 量 可 以 目 然 地 从 旧 的 应 用 程序 
实例 “N” 流 出 并 且 新 的 流量 是 针对 新 的 应 用 程序 实例 “N +1”， 那么 有 可 能 对 用 
户 升 级 完全 不 会 造成 影响 。 如 果 企 业 等 不 及 所 有 的 流量 和 目 然 地 从 旧 的 实例 流出 ， 可 
以 采取 强制 措施 使 得 流量 从 旧 的 实例 流 到 新 的 实例 。 

由 于 迁移 时 间 可 以 延长 ， 需 要 注意 的 是 ， 旧 的 和 新 的 应 用 实例 必须 保持 完全 元 
余 ， 并 在 任何 时 候 没 有 应 用 实例 出 现 单一 暴露 问题 。 由 于 工 型 “街区 聚会 ”的 持 
续 交 付 模 式 使 软件 运行 、 升 级 恨 好 ， 其 模型 得 到 了 进一步 提升 和 增强 ， 例 如 能 够 在 
任何 用 户 流 量 引 导 新 版 本 之 前 ， 自 动 化 回归 测试 软件 版 本 的 合理 性 。 支 持 持续 交付 
pl 直接 文 持 了 开放 数据 中 心 联盟 《0ODCA) ARZA ， 可 扩展 性 ” 理 

， 该 思想 在 第 3.7 节 “ 云 意识 ”中 涉及 。 

由 于 多 个 版 本 可 以 在 同一 时 间 运 行 ， 工 型 软件 升级 提供 了 安装 一 个 特殊 版 本 的 
应 用 的 机 会 ， 只 有 直接 选 定 的 一 组 或 几 个 用 户 可 以 进行 尝试 。 一 旦 尝试 结束 ,版 本 
可 以 被 接受 或 删除 。 


9.3.2 本 型 云 支持 升级 策略 : 每 车 一 司机 


型 “每 车 一 司机 ”的 软件 升级 ( 见 图 9.5) 是 这 样 一 种 策略 ,在 任何 时 间 
只 有 一 个 应 用 程序 实例 提供 用 户 服务 。 这 种 策略 比较 适合 用 来 限制 多 个 应 用 程序 实 
例 共享 数据 或 资源 的 情况 。 该 策略 包括 : 

1) 创建 一 个 基于 新 发 布 的 “N+1” 版 本 的 应 用 实例 ,分配 充 足 的 资源 ， 与 旧 
版 本 “N” 容 量 相 当 。 安 疙 新 版 本 软件 ， 持 久 数 据 从 旧版 本 升级 到 新 版 本 ， 动 态 数 
据 进 行 更 新 ( 如 果 需 要 的 话 ) 并 同步 。 

2) 新 版 本 “N+7” 应 用 程序 实例 被 激活 ， 且 流量 被 定向 到 新 版 本 。 
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1. 每 车 一 司机 升级 策略 中 ， 










新 的 版 本 会 迅速 将 当前 应 r ; 进化 持久 
用 程序 实例 版 本 的 流量 全 ARAM | 数据 同步 i RAN 
部 占用 ， 因 此 新 的 应 用 程 | ”资源 容量 “ayy” 软件 ， E : N+I 
序 发 布 版 本 应 当 在 初始 化 i} i 
的 时 候 就 具有 与 现 有 版 本 d | 
相同 的 容量 。 





2. 完全 发 布 版 “N” 的 容 
量 在 线 维 护 可 以 通过 一 小 
段 时 间 进 行 回 深 ， 如 果 


“N+1” 版 是 有 害 的 则 可 
以 快速 回 深 到 版 本 “N”。 





图 9.5 类 型 “每 车 一 司机 ”升级 策略 


Eee ee E 
用 程序 实例 即 被 关闭 ， 资 源 被 释放 。 

[型 “每 车 一 司机 ”的 软件 升级 的 主要 特点 是 ， 每 次 只 有 一 个 活动 版 本 服务 
用 户 。 其 结果 是 ， 接 口 组 件 不 必 同 时 管理 支持 两 个 应 用 程序 版 本 的 实例 。 卫 地 址 可 
以 被 重新 使 用 ， 并 且 可 以 从 旧版 本 的 虚拟 应 用 程序 实例 移动 到 新 的 应 用 程序 实例 。 为 
了 整个 升级 过 程 中 保持 用 户 会 话 ， 仍 然 在 旧版 本 运行 的 用 户 会 话 在 切换 时 必须 由 新 应 
用 程序 实例 复制 其 相关 联 的 动态 数据 的 副本 。 在 切换 时 可 能 会 有 对 用 户 的 潜在 影响 ， 
尤其 是 当 动 态 数 据 不 能 同步 或 者 不 能 被 新 版 本 访问 时 。 如 果 需 要 回 深 到 旧版 本 ， 执 行 
以 下 步骤 : 从 新 版 本 断 开 资源 ， 重 新 连接 到 旧版 本 〈 包 括 IP 地 址 从 新 版 本 移动 到 旧 
的 版 本 ) ,流量 重 定 疝 到 旧版 本 。 切 换 期 间 存 在 潜在 的 对 用 户 服务 的 影响 。 


9.3.3 讨论 


开 型 软件 升级 ， 在 一 个 时 间 只 有 一 个 版 本 运行 ， 类 似 于 传统 的 在 线 策 略 ， 会 面 
临 在 老 版 本 用 户 和 新 版 本 用 户 之 间 同 步 不 稳定 的 数据 的 挑战 。 对 于 许多 传统 的 应 
用 ， 这 一 策略 将 是 最 容易 采取 的 设计 ， 没 有 大 的 变化 ， 特 别 是 在 没有 不 稳定 的 数据 
需要 保存 或 是 不 稳定 数据 可 以 由 客户 端 维护 的 情况 下 。 中 断 时 间 与 从 旧版 本 的 应 用 
实例 移动 到 新 版 本 的 应 用 实例 的 过 渡 时 间 有 关 。 在 过 渡 期 间 ， 如 果 有 动态 数据 没有 
复制 ， 会 对 可 靠 性 产生 潜在 影响 。 

I 型 采用 了 一 个 与 传统 的 升级 方式 完全 不 同 的 策略 ， 需 要 管理 应 用 实例 并 发 执 
行 的 多 个 版 本 。 有 可 能 需要 采用 这 种 新 型 架构 的 应 用 如 代理 负载 均衡 ， 主 要 用 于 将 
服务 路 由 到 适当 的 应 用 实例 以 及 完成 数据 的 映射 。 型 可 以 切实 没有 用 户 服务 的 停 
机 时 间 ， 没 有 损失 的 动态 数据 ， 因 为 随时 至 少 有 一 个 虚拟 应 用 实例 为 流量 提供 服 
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务 。 与 工 型 ， 流 量 可 以 按 比例 被 路 由 转 到 新 版 本 ， 在 浸泡 测试 期 间 所 有 的 流量 可 以 
被 重新 路 由 到 新 版 本 ， 就 像 卫 型 一 样 。 工 型 执行 回 滚 可 以 切实 实现 不 停机 。 因 为 它 
会 暂停 或 中 止 新 版 本 ， 指 导 所 有 流量 到 旧版 本 。 

第 15.7 节 “ 发 布 管理 影响 效应 分 析 ” 中 对 软件 升级 机 制 和 类 型 进行 了 评 售 ， 
可 以 帮助 设计 师 针对 一 个 给 定 的 应 用 程序 ， 确 定 最 佳 策略 。 


9.4 数据 管理 


在 软件 升级 的 过 程 中 ， 如 果 版 本 之 间 存 在 任何 架构 上 的 更 改 ， 那么 需要 维护 的 
持续 性 数据 (没有 用 户 记 录 的 丢失 ) 和 数据 模式 也 需要 升级 。 此 外 ， 由 于 任何 升 
级 可 能 导致 破坏 ， 必 须 能 够 从 一 个 升级 态 回 退 〈 在 提交 之 前 ) 或 回 深 (在 提交 之 
` 后 ) 到 应 用 程序 之 前 的 一 个 稳定 的 运行 状态 。 当 一 个 版 本 被 关闭 和 删除 时 ， 需 要 
有 一 个 机 制 来 清理 持久 性 数据 。 
对 于 工 型 “街区 聚会 ” ， 可 以 为 一 个 新 版 本 的 应 用 实例 创建 一 个 独立 的 数据 更 
新 副本 。 在 升级 过 程 中 ， 有 几 种 可 能 的 数据 更 新 方法 : 
。 初始 数据 存储 之 后 ， 屏 蔽 所 有 的 配置 请 求 ， 不 允许 做 任何 数据 更 改 ， 直 到 
新 的 版 本 生效 ; 

© 人 允许 配置 请 求 继续 在 旧版 本 生效 ,但 需要 记录 所 有 的 变化 ， 并 最 终 存储 到 
新 版 本 的 数据 库 中 ; 

。 允许 配置 请 求 继续 在 旧版 生效 ， 做 一个 旧版 本 和 新 版 本 之 间 的 数据 实时 则 步 

。 组 合 使 用 以 上 方式 : 允许 配置 请 求 继续 在 旧版 生效 ,但 在 激活 新 版 本 的 最 
后 时 刻 屏蔽 配置 请 求 ， 最 终 再 将 旧版 本 数据 需要 存储 到 新 版 本 的 数据 库 中 。 

一 旦 旧版 本 的 应 用 程序 可 以 删除 ， 旧 版 本 的 数据 库 资源 也 可 以 释放 和 删除 。 回 
滚 需要 新 版 本 实例 离线 ， 并 且 引 导 所 有 新 流量 到 旧版 本 的 实例 上 。 如 果 释 放 被 保 
留 ， 其 数据 必须 进行 备份 ， 如 果 有 必要 ， 数 据 可 以 进行 恢复 。 

对 于 了 型 “每 车 一 司机 ”， 可 以 为 一 个 新 应 用 版 本 创建 一 个 更 新 的 数据 副本 。 
在 切换 之 前 ， 新 的 应 用 实例 的 数据 与 旧版 本 的 实例 同步 ， 以 确保 新 实例 有 最 新 数据 
副本 。 这 种 同步 可 以 通过 日 志 式 的 操作 方式 来 更 新 最 近 更 改 的 数据 项 。 请 注意 ， 一 些 
应 用 程序 可 能 在 升级 过 程 中 不 允许 更 改 持 久 性 数据 ， 以 避免 最 后 的 同步 步 又。 在 切换 
时 ， 只 有 数据 模式 的 新 版 本 被 使 用 ， 不 需要 像 型 那样 必须 保持 两 个 版 本 最 新 。 如 果 
需要 回 滚 ， 那 么 目 新 版 本 实例 激活 以 来 的 所 有 数据 变化 都 应 该 重新 应 用 到 旧版 本 上 ，， 
这 是 回 滚 的 一 个 重要 环节 。 开 型 软件 升级 可 以 很 快 地 分 发 到 用 户 ， 因 为 它 不 需要 等 
竺 流量 从 旧版 本 流 完 。 然 而 ， 这 会 有 一 个 损失 现 有 用 户 会 话 的 潜在 影响 。 

忽略 掉 数 据 升 级 、 分 离 〈 包 括 持久 性 数据 和 动态 数据 ) 的 类 型 会 有 利于 在 主 
i et eh 
中 ， 从 而 能 够 兼容 多 个 版 本 的 软件 。 一 个 应 用 实例 可 以 从 主 副 本 获得 它 所 需要 的 数 
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据 ， 并 在 本 地 缓存 。 对 数据 的 更 新 只 针对 主 副本 。 特 定 版 本 的 访问 、 更 新 和 同步 功 
能 ， 如 果 需 要 的 话 可 以 通过 “代理 ”方式 提供 给 旧版 本 。 如 果 数 据 的 分 离 是 不 可 
能 实现 的 ， 那 么 软件 升级 程序 必须 按 合理 的 顺序 进行 数据 更 新 和 同步 〈 既 包括 持 
入 性 数据 也 包括 动态 数据 ) ， 这 样 才 能 确保 数据 不 丢失 。 


9.5 软件 升级 中 的 服务 编排 角色 


对 服务 的 业务 流程 编排 是 基于 对 任务 和 组 件 的 管理 技术 ， 对 于 软件 升级 ， 协 助 
满足 服务 质量 的 可 用 性 ， 可 徘 性 和 可 持续 性 要 求 ， 是 非常 重要 的 。 服 务 的 编排 包括 
架构 的 连接 、 初 始 化 任务 和 工具 ， 以 及 对 服务 的 自动 管理 。 在 云 计算 环境 ， 服务 编 
排 包括 任务 的 连接 、 基 于 工作 流 的 目 动 化 任务 ,测量 数据 ， 以 及 提供 目标 服务 的 策 
略 。 对 于 软件 升级 ， 服 务 业务 流程 编排 涉及 新 软件 安装 和 配置 的 自动 化 的 过 程 ， 配 
置 和 初始 化 资源 实例 ， 持 久 性 数据 的 更 新 ， 以 及 动态 数据 的 同步 ， 还 涉及 从 旧 的 版 
本 过 渡 到 新 的 版 本 时 ， 从 旧版 本 中 释放 流量 ， 在 新 版 本 中 注 和 流量。 此 外 ， 一 些 组 
件 可 能 需要 新 的 IP 地 址 更 新 。 所 有 这 些 操作 都 需要 认真 协调 和 监控 ， 提 供 暂 停 和 
回 退 机 制 ， 只 有 这 样 ， 在 有 茶 种 程度 上 才能 保证 服务 的 可 用 性 〈 即 没有 用 户 停机 ) 
和 服务 的 可 靠 性 、 持 续 性 〈 例 如 维持 会 话 和 事务 处 理 的 稳定 ) 。 

例如 ， Æ 工 型 软件 升级 中 ， 服 务 编排 将 负责 创建 和 安装 新 版 本 的 应 用 程序 ， 更 
新 和 同步 持久 性 数据 ， 更 新 域名 系统 (DNS) 、 前 端 分 配器 和 防 炎 墙 (包括 新 版 本 
应 用 实例 的 IP 地 址 或 完全 合格 的 应 用 实例 目录 号 码 (FQDN ) ) ， 以 及 针对 新 旧版 
应 用 实例 配置 路 由 流量 ， 管 理 对 旧版 本 的 柔性 关闭 。 对 于 开 型 软件 升级 ， 服 务 编排 
也 将 参与 动态 数据 的 同步 《如 有 请 求 ) ， 执 行 旧版 本 应 用 实例 切换 到 新 版 本 的 应 用 
实例 。 对 于 这 两 种 类 型 和 卫 ， 如 果 需 要 执行 回 深 ， 服 务 编排 也 将 协助 。 

负载 均衡 句 在 编排 过 程 中 是 非常 重要 的 关键 部 件 ， 它 负责 引导 客户 流量 到 正确 
的 应 用 程序 实例 。 对 这 一 作用 这 里 有 两 个 选项 : 

。 客户 剖 流 量 被 引导 到 一 个 代理 负载 均衡 器 ， 它 将 负责 转发 流量 到 适当 的 服 
务 般 实例。 负载 均衡 硕 会 跟踪 管理 指定 客户 端 会 话 的 应 用 实例 。 在 软件 升 
级 时 ， 与 现 有 旧版 本 相关 的 会 话 信 息 仍 然 被 指向 那些 支持 旧版 本 的 应 用 实 
例 ， 与 新 会 话 相关 联 的 信息 直接 引导 到 新 版 本 的 应 用 实例 上 。 
客户 端 流量 通过 非 代理 负载 均衡 器 (例如 DNS) 可 以 继续 流向 旧版 本 的 应 
用 实例 。 这 里 ,代理 与 应 用 集成 在 一 起 。 代 理 被 激活 用 来 引导 注册 、 以 及 
与 新 版 本 应 用 实例 会 话 产 生 的 流量 。 与 现 有 旧版 本 应 用 实例 相关 的 会 话 信 
息 继 续 由 旧版 实例 处 理 。 在 这 种 情况 下 ， 代 理 只 是 在 过 渡 阶 段 需 要 ， 一 旦 
旧版 应 用 实例 停止 服务 ， 代 理 即 被 停 用 。 一 旦 所 有 的 旧版 本 的 流量 已 经 没 
有 了 ， 旧 版 本 也 就 不 再 需要 了 ， 非 代理 负载 均衡 器 可 以 针对 新 版 本 的 应 用 
实例 进行 更 新 ， 临 时 代理 可 以 被 关闭 。 
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代理 负载 均衡 器 的 作用 是 通过 服务 编排 提高 对 工作 的 策略 管理 ， 例 如 确定 一 定 
比例 的 新 流量 被 引导 到 新 版 本 的 服务 右 实 例 上 ， 以 浸泡 测试 新 版 本 一 段 时 间 。 这 也 
将 允许 在 某 个 指定 的 时 间 段 (由 客户 决定 )， 多 个 版 本 可 以 同时 运行 。 


9.5.1 解决 方案 级 软件 升级 


解决 方案 级 别 的 升级 是 男 一 个 层次 上 复杂 的 软件 升级 过 程 ， 它 需要 对 一 系列 虚 
拟 应 用 进行 升级 ， 涉 及 解决 方案 中 所 有 受 影响 的 元 素 。 这 个 需要 升级 的 序列 需要 在 
解决 方案 中 各 种 元 素 之 间 的 依赖 性 和 兼容 性 上 达成 一 致 ， 以 决定 哪些 元 素 需 要 先 升 
级 和 哪些 元 素 可 以 并 行 升 级 。 此 外 ， 解 决 方案 的 元 素 之 间 的 数据 分 布 也 需要 被 包含 
在 服务 的 编排 过 程 里 ， 这 样 适 当 的 数据 同步 可 以 在 这 些 元 素 之 间 进 行 。 显 然 ， 这 种 
复杂 性 可 以 通过 确保 元 素 间 接口 的 兼容 性 ， 以 及 能 够 并 行 升 级 ， 而 不 是 顺序 升级 的 
能 力 所 调和 ， 但 可 能 无 法 完全 保证 。 

服务 编排 机 制 可 以 实现 对 这 种 复杂 过 程 的 自动 化 管理 ， 确 保 升级 的 顺序 正确 ， 
确保 验证 成 功 之 后 才 开 始 另 一 个 升级 ， 确 保 元 素 之 间 数 据 的 同步 。 为 了 方便 业务 流 
程 的 编排 ， 软 件 升 级 策略 〈 例 如 “街区 聚会 ” “每 车 一 司机 ”) 中 必须 明确 定义 管 
理 虚拟 应 用 的 接口 ， 以 及 发 送 给 服务 编排 过 程 的 数据 。 过 程 管 理 不 仅 是 按 适 当 顺 序 
完成 对 每 一 个 相关 元 素 的 软件 升级 还 包括 柔性 关闭 旧 的 应 用 实例 和 最 终 释 放 资 
源 、 删 除 旧 版 本 实例 。 作 为 单独 的 应 用 程序 升级 ， 它 必须 能 够 回 退 一 个 或 所 有 已 升 
级 的 应 用 元 素 。 服 务 编排 应 能 文 持 回 退 。 


9%.6 结论 


[型 “街区 聚会 ”和 开 型 “每 车 一 司机 ”的 软件 升级 策略 ， 与 传统 的 软件 升 
级 架构 相 比 ， 提 高 了 基于 云 的 应 用 的 服务 质量 。 型 “街区 聚会 ”通过 同时 支持 
新 旧版 本 两 个 应 用 实例 ， 可 以 比 荆 型 提供 更 高 的 用 户 服 务 质量 ， 而 复杂 性 以 及 用 户 
服务 突然 从 一 个 版 本 转换 到 男 一 个 版 本 的 服务 风险 也 不 在 存在 。 在 I 型 中 ， 服 务 可 
以 慢 慢 地 从 旧 的 版 本 转移 ， 活 动 的 用 户 会 话 也 不 需要 被 强制 迁移 到 新 的 版 本 。 一 部 
分 流量 可 以 被 定向 到 新 版 本 进行 浸没 测试 ， 而 同时 其 余 流量 仍然 可 以 在 旧 的 版 本 上 
运行 。 这 也 可 以 用 于 限制 用 户 试验 或 测试 。 如 果 新 版 本 需要 回 深 ， 只 需要 禁用 该 版 
本 和 引导 流量 到 旧版 本 。 从 解决 方案 层次 来 看 ， 服 务 编排 可 以 充分 考虑 接口 的 不 兼 
容 和 依赖 问题 ， 实 现 对 各 种 应 用 程序 升级 的 统一 管理 和 协调 。 


第 10 et 端 到 端 考虑 因 系 


终端 用 户 通过 智能 手机 、 平 板 电 脑 、 笔 记 本 电脑 或 其 他 设备 体验 基于 云 的 应 
用 ， 这 种 体验 集成 了 云 应 用 、 云 架构 、 广 域 接 人 网 以 及 用 户 设备 本 身 的 各 种 因素 。 
10. 1 节 “ 端 到 端 服务 环境 " ， 介 绍 了 最 终 用 户 实际 体验 的 服务 质量 总 体 情况 和 通常 
的 考虑 。10. 2 节 “ 三 层 端 到 端 服务 模型 "， 提 供 一 种 简单 的 模型 并 分 析 服 务 损耗 。 
10. 3 节 “ 分 布 式 和 集中 式 的 云 数据 中 心 "， 介 绍 了 从 附近 小 型 的 云 数据 中 心 获取 服 
务 与 从 更 大 更 远 的 区 域 数据 中 心 获取 服务 相 比 ， 服 务 质量 的 差异 。10.4 节 “ 多 层 
解决 方案 架构 " ， 介 绍 了 依赖 于 多 个 云 数据 中 心 资源 的 更 为 复杂 的 解决 方案 。10.5 
节 “ 灾 难 恢复 和 地 理 宛 余 "， 介 绍 了 云 应 用 的 地 理 数据 宛 余 和 灾难 恢复 。 


10.1 端 到 端 服 务 环境 


如 图 10. 1 所 示 ， 在 一 个 简单 的 端 到 端的 应 用 程序 服务 模型 中 ,终端 用 户 所 体 
验 的 服务 质量 缺陷 包括 以 下 5 个 方面 : 


终端 用 户 对 于 端 



















3. 缺陷 存在 于 4. 应 用 程序 和 







到 端 服务 缺陷 的 应 用 程序 中 数据 中 心 的 策 
体验 是 一 系列 问 略 和 操作 中 存 
题 的 组 合 .… 在 错误 
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5. 由 用 户 设 备 
和 网 络 接 入 导 
致 的 缺陷 





虚拟 化 架构 


图 10.1 简单 的 端 到 端 应 用 程序 服务 环境 


1) IP 服务 质量 和 通过 访问 广域网 络 架 构 和 设备 带 来 的 缺陷 ， 例 如 数据 包 丢 
失 ， 数 据 包 的 延迟 和 数据 包 择 动 。 
2) 云 服务 提供 商 的 架构 和 数据 中 心 的 缺陷 ， 例 如 云 数据 中 心 的 服务 质量 问 
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a, 包括 计算 、 存 储 、 网 络 与 服务 架构 (在 第 4 章 介绍 “虚拟 化 架构 缺陷 ”中 讨 

论 )。 这 类 问题 还 包括 灾难 事件 ， 这 会 导致 一 些 或 所 有 的 云 服 务 提供 商 的 数据 中 心 
FAIRER, REIRERERERTICS T “TORR AAIMIETESR” 站 
讨论 。 

3) 应 用 软件 和 潜在 的 客户 操作 系统 缺陷 。 应 用 软件 ， 客 户 操作 系统 和 由 应 
使 用 的 技术 组 件 容 易 残 留 软件 漏洞 和 架构 缺陷 。 

4) 由 于 人 为 因素 ， 错 误 的 策略 ， 云 用 户 和 云 服务 提供 商 的 原因 带 来 的 缺陷 。 
传统 上 ， 程序 上 的 错误 或 人 为 错误 是 服务 停机 的 主要 原因 。 

以 下 是 传统 的 程序 上 的 错误 的 典型 例子 ， 包 含 但 不 限于 此 : 

a. 错误 地 移 走 了 熔断 器 或 电路 板 ; 

b. 没有 采取 适当 的 防范 措施 保护 设备 ， 如 电源 被 短路 和 不 戴 防 静电 带 ; 

c. 未 经 授权 的 操作 ; 

d. 不 遵从 程序 规则 (MOP) ; 

e 不 遵循 文档 要 求 的 步 又; 

f 使 用 错误 的 或 过 期 的 文档 ; 

g 技术 文档 缺乏 ; 

h. 翻译 错误 ; 

i. 用户 对 问题 的 怒 慌 反应 ; 

j 输入 错误 的 命令 ; 

k. 输入 了 不 知 后 产生 什么 后 果 的 命令 ; 

1 对 网 络 警告 的 不 恰当 反应 。 

自动 化 可 以 最 小 化 人 工 操作 带 来 的 错误 风险 ， 但 错误 的 操作 策略 风险 仍然 存 
在 ， 例 如 错误 地 激活 弹性 增长 机 制 ， 又 如 在 引导 流量 到 新 增长 组 件 之 前 没 能 检测 最 
近 增 长 的 应 用 容量 大 小 。 | 

5) 由 于 用 户 终端 设备 (例如 电池 没 电 ) 或 网 络 访问 (例如 站 在 一 个 无 线 死角 ) 
带 来 的 缺陷 ， 这 些 缺 陷 会 影响 最 终 用 户 的 服务 ， 但 通常 归 因 于 用 户 而 不 是 应 用 本 身 的 
服务 质量 。 此 外 ， 设 备 的 硬件 〈 例 如 ， 扬 声 器 ， 麦 克 风 和 显示 ) 和 软件 (例如 编 解 
码 器 的 实现 ) 的 技术 特点 ， 实 际 上 限定 了 最 终 用 户 体验 的 服务 质量 。 例 如 ， 视 频 质 
量 的 体验 方面 ， 一 个 全 尺寸 高 清 电视 要 明显 优 于 一 个 小 屏幕 手持 式 智能 手机 。 

第 2.2 节 “ 服 务 边界 ”中 介绍 了 应 用 程序 面向 用 户 服务 边界 和 面向 资源 服务 
边界 。 图 10. 2 是 在 图 10. 1 所 展示 的 端 到 端的 服务 环境 基础 上 对 服务 边界 进行 了 
说 明 。 

为 了 分 析 端 到 端 服务 ， 定 义 多 个 逻辑 测量 点 是 非常 有 用 的 。 图 10.3 扩展 了 
[Bauerl2] 的 四 个 测量 点 ， 其 中 测量 点 1 (MPL) 相当 于 应 用 程序 面向 用 户 服 务 编 
H, 测量 点 0 (MPO) 等 同 于 应 用 程序 的 面向 资源 服务 边界 。 图 10. 3 这 些 测量 点 
覆盖 了 图 10. 2 
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应 用 程序 的 面向 用 户 服务 边界 
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虚拟 化 架构 
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图 10.3 Finjan FRE E A 0-4 


© MP0 一 一 洪 构 测量 ， 是 应 用 程序 面向 资源 服务 边界 到 云 服务 提供 商 虚拟 架 
构 的 服务 边界 。 第 四 章 “ 虚 拟 架构 化 架构 缺陷 ”中 国 绕 测量 点 讨论 了 主要 
的 风险 。 

e MP1 一 一 组 件 实例 测量 ， 是 应 用 程序 的 面向 用 户 服务 边界 。 通 过 这 一 边界 
的 服务 受 限 于 特定 应 用 (或 技术 组 件 ) 的 服务 质量 度量 ， 例 如 服务 的 可 靠 
性 和 服务 延迟 〈 见 第 2. 5 他 “应 用 程序 服务 质量 " ) 。 不 同类 型 的 应 用 程序 
和 技术 组 件 的 实例 可 能 有 不 同 的 关键 服务 质量 测量 要 求 。 例 如 ， 面 向 会 话 
的 组 件 可 能 需要 有 针对 特定 应 用 的 持久 性 度量 ， 而 非 会 话 类 组 件 不 会 有 此 
需求 。 

e MP2 一 一 数据 中 心服 务 测量 ， 是 在 一 个 单一 的 可 用 区 域 域 或 数据 中 心 ， 对 
全 套 应 用 和 技术 组 件 实例 所 交付 的 服务 进行 测量 ， 这 是 高 水 平 的 解决 方案 
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级 的 服务 测量 。 测 量 会 集成 应 用 组 件 ， 支撑 技术 组 件 和 云 数据 中 心 染 构 使 
用 的 操作 系统 。 


。 MP3 一 一 聚合 服务 测量 ， 是 对 两 个 或 两 个 以 上 的 云 数据 中 心 或 可 用 性 区 域 


中 的 智能 负载 分 配 和 均衡 管理 的 服务 测量 ， 其 中 也 包括 对 灾难 恢复 机 制 的 
服务 测量 。MP3 在 图 10. 3 中 没有 标 出 。 


。 MP4 一 -一端 到 端 服务 测量 ， 是 聚合 服务 测量 MP3 、 访 问 控制 ， 以 及 广域网 


IP 传输 的 终端 用 户 所 体验 的 服务 影响 的 组 合 


图 10. 4 展示 了 一 种 比 图 10. 3 更 安全 的 应 用 ， 并 且 将 这 种 。 应 用 + 安全 设备 ” 
的 解决 方案 应 用 到 两 个 云 数据 中 心 ， 有 两 个 关键 点 : 


l raet 








oo 





MP3: 聚 合 服务 测量 


Rs a ma so e pa s 一 


图 10.4 简单 复制 方案 环境 的 端 到 端 测量 点 


多 组 件 实例 。 真 实 的 云 解决 方案 通常 包括 多 个 离散 的 应 用 和 技术 组 件 实例 。 
这 些 组 件 提 供 不 同 的 功能 ， 从 而 使 应 用 程序 的 解决 方案 能 够 为 最 终 用 户 提 
供 可 接受 的 服务 。 图 10. 4 采用 两 个 不 同 的 组 件 实例 来 说 明 这 一 点 : 一 个 应 
用 实例 和 该 应 用 实例 的 安全 设备 ， 该 设备 保护 应 用 实例 免 受 非法 流量 的 影 
啊 〈 例 如 分 布 式 拒绝 服务 攻击 ) 。 两 者 都 需要 充分 发 挥 作用 ， 才 有 可 能 同 
时 满足 用 户 对 服务 质量 的 要 求 和 企业 对 安全 的 预期 。 这 些 组 件 中 的 每 一 个 
具有 与 整体 解决 方案 不 同 的 作用 ， 因 而 具有 不 同 的 关键 质量 指标 (KOI). 
真正 的 解决 方案 可 能 会 包含 由 多 个 离散 的 应 用 实例 或 技术 组 件 实例 提供 的 
功能 ， 例 如 数据 库 的 功能 ， 应 用 逻辑 和 网 络 管理 的 功能 。 每 个 应 用 实例 或 
技术 组 件 实例 的 质量 特性 可 以 与 不 同 的 MP1 指标 进行 单独 测量 。 

多 个 数据 中 心 。 关 键 应 用 通常 是 部 署 到 数据 中 心 ， 一 方面 减轻 灾难 发 生 时 
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的 风险 ， 男 一 方面 提高 服务 的 可 用 性 。 图 10. 4 显示 了 相同 的 应 用 被 部 署 到 
“北方 数据 中 心 ” 和 “南方 数据 中 心 ”。MP2 (数据 中 心 测量 ) 可 以 在 服务 
逻辑 上 区 分 这 些 数 据 中 心 之 间 的 联系 和 各 自 的 公共 网 络 (广域网 ) A, 
对 于 北方 数据 中 心 〈 或 南方 数据 中 心 ) 中 的 MP2 可 以 反映 出 由 北方 数据 中 
心 (或 南方 数据 中 心 ) 交付 的 用 户 服务 。MP3 代表 云 服务 的 总 体 可 用 性 ， 
可 以 通过 数据 中 心 池 进行 查看 。 例 如 ， 如 果 云 消费 者 将 北方 数据 中 心中 的 
应 用 实例 离线 几 个 小 时 以 进行 日 常 维护 ， 那 么 云 消 费 者 可 以 在 维护 活动 之 
前 就 逐渐 减少 北方 数据 中 心 的 流量 ， 而 在 维护 活动 成 功 结束 之 后 恢复 用 户 
流量 。 因 此 ， 对 于 北方 数据 中 心 ，MP2 (数据 中 心 测量 ) 可 以 反映 出 在 测 
量 期 间 的 数 小 时 服务 停机 ， 但 MP3 (聚合 服务 测量 ) 则 在 此 段 时 间 不 会 受 
到 影响 ， 因 为 所 有 用 户 会 由 南方 数据 中 心 运行 的 应 用 提供 服务 。 
图 10. 5 说 明了 典型 的 服务 探测 点 。 


1. 应 用 程序 、OS、 库 和 技术 组 件 





图 10.5 用 户 服务 交付 路 径 中 的 服务 探测 


1 ) 应 用 软件 ， 操 作 系统 ， 调 用 库 和 技术 组 件 一 般 都 会 有 性 能 监测 机 制 ， 实 时 
记录 关键 性 能 数据 并 尽 可 能 快 地 将 数据 提供 给 服务 保障 和 管理 系统 。 传 统 的 性 能 监 
控 机 制 是 一 个 非常 有 用 的 起 始点 ,但 随 着 Internet 规模 的 增 大 以 及 其 他 因素 ， 采 用 
去 友好 的 性 能 监测 工具 更 受到 鼓励 ， 如 Dapper。 需 要 注意 的 是 ， 单 个 网 络 元 素 一 
般 会 监测 性 能 管理 指标 ， 其 范围 从 通用 性 的 测量 (例如 检测 IP 数据 包 发 送 ) 到 面 
向 特定 协议 的 信息 (例如 被 成 功 处 理 的 特定 协议 请 求 的 类 型 ) 。 对 这 些 测量 结果 的 
分 析 ， 能 够 深入 了 解 单 优 网 络 元 素 实例 的 性 能 ， 但 很 少 能 够 深入 到 终端 用 户 的 服务 
体验 。 

2) 应 用 服务 可 以 从 数据 中 心 主机 进行 监控 。 这 一 探测 点 消除 了 所 有 的 访问 控 
制 和 广域网 络 访问 等 缺陷 ， 但 不 经 过 所 有 的 边缘 路 由 器 ， 安 全 设备 ， 以 及 其 他 的 
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IP 架构 ， 而 这 些 是 真正 的 最 终 用 户 的 服务 所 必须 通过 的 。 这 一 探测 点 可 以 准确 地 
测量 托管 在 目标 数据 中 心 的 单一 应 用 或 组 件 的 实例 ( 即 MP1)， 还 可 以 对 主 数据 中 
心 进行 测量 (BI MP2)。 

3) 探测 点 还 可 以 安装 在 通过 线 缆 连 接 的 一 个 或 多 个 地 点 ， 例 如 另 一 个 云 数 据 
中 心 或 云 消费 者 的 办 公 室 。 这 些 服务 探测 点 可 以 测量 用 户 通 过 有 线 IP 连接 访问 的 
服务 性 能 。 这 可 以 近似 得 到 MP2“ 主 数据 中 心服 务 的 测量 ”或 MP3“ 上 聚合 服务 测 
E”, 具体 取决 于 服务 测量 点 执行 的 操作 。 

4) 无 线 服务 的 探测 可 以 用 来 说 明 固 定 的 或 移动 的 无 线 用 户 性 能 。 这 项 测量 可 
以 粗略 地 近似 得 到 终端 用 户 通过 无 线 方式 进行 访问 的 性 能 ， 即 MP4。 而 无 线 服务 
提供 商 通常 执行 所 谓 的 驱动 测试 来 识别 和 纠正 覆盖 漏洞 ， 大 部 分 云 消费 者 无 法 对 终 
端 用 户 的 无 线 访问 进行 控制 ， 所 以 这 也 让 该 测量 没有 什么 意义 。 

5) 安装 在 最 终 用 户 的 设备 或 客户 端 应 用 中 的 探测 点 ， 可 以 很 容易 监测 服务 出 
现 的 问题 ， 如 延迟 、 委 包 ， 香 吐 量 、 可 访问 性 和 可 维持 性 。 这 些 性 能 测量 数据 能 被 
远程 访问 ， 这 样 云 消费 者 的 操作 和 支持 团队 就 可 以 获得 这 些 统 计数 据 ， 从 而 更 好 地 
理解 最 终 用 户 正 在 经 历 的 服务 问题 。 这 种 服务 探测 能 得 到 MP4， 即 “ 端 到 端 服务 
测量 。 


10.2 三 层 端 到 端 服务 模型 


为 了 更 好 地 分 析 端 到 端的 服务 风险 ， 将 图 10. 1 中 简单 的 模型 分 解 为 三 个 逻辑 
层 ， 如 图 10.6 所 示 : 


U 





图 10.6 端 到 端 解决 方案 示例 的 三 层 结 构 


1) 架构 层 : 包括 传输 IP 数据 包 和 支持 应 用 处 理 的 物理 设备 、 装 备 、 器 材 。 物 
理 架 构 层 由 以 下 要 素 组 成 : 

。 用 户 的 设备 ; 

© 无 线 基 站 和 传输 路 径 (或 有 线 接 入 设备 和 设施 ); 
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© 接 人 网 络 架构 和 设备 ; 
© 广域网 络 架构 和 设备 ; 
访问 云 计算 数据 中 心 区 分 点 的 接 人 架构 和 设备 ; 
云 服务 提供 商 的 路 由 器 、 网 络 、 处 理 器 、 内 存 和 存储 设备 ， 以 及 数据 中 心 
设施 。 

2) 服务 层 : Ra 
服务 层 包括 以 下 要 素 : 

。 在 最 终 用 户 的 设备 上 运行 的 网 络 软 件 ; 

© 由 最 终 用 户 的 无 线 服务 提供 商 提供 的 IP 网 络 服务 ; 

。 虚拟 专用 网 络 (VPN) 服务 ; 

è IaaS 和 任何 支持 X 即 服务 (XaaS) 相关 的 云 用 户 软件 〈 人 例如， 负载 均衡 

服务 ) 。 

3) DARE: 集成 使 服务 层 提供 服务 的 应 用 软件 ， 所 有 软件 都 要 有 物理 架构 层 
元 素 的 支持 。 应 用 层 包 括 : 

。 在 最 终 用 户 的 设备 上 运行 的 应 用 软件 ; 

© 云 消 费 者 的 应 用 软件 、 策 略 ， 以 及 由 服务 层 XaaS 提供 的 数据 ; 

© VPN 和 其 他 网 络 服务 的 集成 。 

架构 中 的 每 个 网 络 元 素 和 设备 应 该 都 有 自己 的 性 能 度量 指标 (关键 性 能 指标 ， 
KPI) 。 在 服务 层 中 ,各 项 服务 的 提供 者 应 该 能 够 管理 交付 的 服务 质量 。 例 如 ， 企 
Mk VPN 服务 提供 商 通常 会 承诺 在 区 分 点 之 间 服 务 的 可 用 性 、 丢 包 、 延 迟 、 抖 动 等 
性 能 ， 而 屏蔽 企业 客户 操作 使 用 VPN 服务 的 复杂 性 。 应 用 层 终端 用 户 体 验 的 端 到 
端 服务 是 本 章 的 重点 。 


10.2.1 通过 三 层 模 型 估算 服务 缺陷 


图 10.7 显示 了 在 端 到 端的 服务 交付 路 径 上 ， 应 用 服务 的 缺陷 是 如 何 积累 的 。 
如 式 〈10.1) 所 示 〈 人 和 估算 总 的 端 到 端 服务 缺陷 ) ， 由 最 终 用 户 体验 的 基本 服务 缺陷 
“X”( 例 如 ， 典 型 的 服务 延迟 ) 一 般 可 估计 为 下 列 几 项 的 总 和 : 

1) 客户 端 设 备 和 应 用 的 缺陷 〈 例 如 Xoie) 

2) BP was WBA ZS ERI 〈 例 如 Xcess ) 

3) WAN 和 云 服务 提供 商 接 入 网 络 的 缺陷 (例如 Xwan) 

4) 云 用 户 使 用 的 由 不 同 云 服 务 提供 商 提供 的 服务 的 缺陷 ， 如 IaaS， 负 和 载 均衡 ， 
数据 库 (例如 Xx,,s) 

5) 应 用 软件 本 和 号 的 缺陷 AA X app) o 

X End2End ~X cliem +X access +X wan +X xas +X App (10. 1) 

这 种 故障 模型 是 可 组 合 的 ， 缺 陷 可 以 被 分 解 为 “ 白 盒 ”组 件 缺 陷 或 合并 成 

CRE BFR Aan, ERVI (Xares) 的 黑 盒 缺陷 可 以 被 分 解 成 更 小 的 黑 
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图 10.7 在 三 层 结构 模型 中 可 能 存在 的 服务 缺陷 


Eup 


。 更 深层 次 的 分 析 如 图 10.8 Hay, HARA TF : 
< A Mave 在 无 线 空 中 接 H 中 的 传播 缺陷 ` 
X prs, 无 线 基 站 缺陷 ` 
X pachan. 接 人 设备 和 设施 的 缺陷 ; 
X WiretessCateway. 无 线 运营 商 网 络 和 互联 网 之 间 交 互 网 天 缺陷 。 


A Client X Ret ess Aw AN 


D Gn [eT aa. 


“wane 
或 公众 


+ Internet # 







分 解 测量 


\ Areintertave A BTS \ backhaul A WitulessGatew as 


图 10.8 服务 缺陷 分 解 


这 些 缺 陷 可 以 进一步 分 解 ， 如 将 和 sum 缺陷 细 分 为 回程 路 径 上 的 设备 缺陷 和 
物理 传输 线路 上 的 传播 延迟 。 同 样 ， 如 果 卫 流量 是 在 多 个 运营 商 间 流动 ， 那 么 
Xww 可 以 被 分 解 为 每 个 卫 运营 商 的 缺陷 。 


10.2.2 端 到 端 服 务 可 用 性 


正如 在 2.5.1 节 “ 服 务 可 用 性 ”中 所 讨论 的 ， 服 务 的 可 用 性 是 由 服务 宕 机 时 
间 决 定 的 。 当 最 终 用 户 通过 数据 中 心 的 一 个 特定 的 应 用 实例 访问 应 用 服务 时 ， 在 闯 
到 端 服 务 路 径 上 的 组 件 逻 辑 上 被 顺序 排列 。 因 此 ， 每 个 组 件 服务 的 停机 时 间 ， 人 逻辑 
上 应 被 累加 ， 如 式 (10.2) 所 示 〈 端 估算 端 到 端 服 务 停机 时 间 ) 到 端的 服务 停机 
时 间 的 评 佑 ) 。 需 要 注意 的 是 ， 不 是 所 有 的 端 到 端的 停机 时 间 会 被 累加 到 应 用 。 例 
如 ， 如 果 由 于 电池 耗 尽 导 致 最 终 用 户 的 设备 不 可 用 ,逻辑 上 Downtimecion 是 受 影响 
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的 ， 但 是 这 个 时 间 通 常 被 认为 是 最 终 用 户 引 起 的 ， 而 不 是 云 应 用 的 责任 ， 因 此 可 以 
排除 。 
Downtimer, wrna ~ Downtimecion + Downtime... + Downtimey,y + Downtime,,,; + Downtime spp 
(10.2) 
假设 所 有 的 组 件 的 停机 时 间 表 示 为 每 年 服务 停机 的 分 钟 数 〈 即 每 个 系统 每 
年 的 停机 时 间 ) ， 那 么 端 到 端的 停机 时 间 Downtimepe 将 表示 为 每 年 停机 的 分 钟 
数 。 这 使 得 端 到 端 服务 可 用 性 可 以 通过 式 (10.3) 计算 (估算 端 到 端 服务 可 用 
HE) °: 
525960 — Downtimes, pp 
525960 
如 果 主 实例 出 现 故障 ,高 级 的 客户 端 应 用 和 服务 提供 商 操作 可 以 使 用 户 服务 恢 
复 到 一 个 宛 余 的 应 用 实例 上 ， 通 常 是 在 不 同 的 可 用 区 域 域 或 数据 中 心 。MP3 检测 
这 些 宛 余 应 用 实例 的 恢复 操作 性 能 ， 并 通过 客户 端 发 起 的 恢复 模型 ， 评 佑 多 个 元 余 
应 用 实例 的 服务 可 用 性 。 


10. 2.3 端 到 端 服务 延迟 


正如 在 第 2.5.2 节 “ 服 务 延 迟 ” 中 所 讨论 的 ， 服 务 延 迟 有 两 个 关键 的 数字 : 
典型 延迟 (名义 上 的 50% 或 90% ) 和 尾部 延迟 (名义 上 的 99.99% BY 99. 999% ) 。 
估算 端 到 端 服务 延迟 ( Typicals, na ) 可 以 通过 计算 服务 交付 路 径 上 的 典型 延 近 
(Typical) 总 和 来 实现 ， 如 式 (10.4) 所 示 (估算 端 到 端 服务 典型 延迟 ) 。 应 用 
程序 服务 延迟 (Typical,,,) 可 能 根据 不 同类 型 的 应 用 操作 (例如 建立 呼叫 ， 启 动 
流 电影 ， 显 示 搜 索 结 果 的 第 一 屏 ) 会 有 较 大 不 同 。 应 用 会 因 有 不 同 的 关键 功能 
(例如 账户 的 创建 ， 用 户 登录 ， 或 完成 购买 交易 ) 而 具有 不 同 的 时 延 特 征 ， 可 以 单 
独 测量 和 优化 每 一 个 指标 。 

Typicalgnarena ~ Typical giien + Typicalaccess + TypicalwAN + Typicalxsss + TypicalAm 

(10. 4) 

需要 注意 的 是 ， 最 终 用 户 的 操作 通常 包括 一 个 由 用 户 发 送 的 请 求 消息 和 一 个 来 
自 应 用 的 响应 消息 ， 所 以 端 到 端的 服务 延迟 应 该 既 要 考虑 从 用 户 设 备 到 应 用 的 上 行 
数据 流 ， 又 要 考虑 从 应 用 返回 到 用 户 设备 的 下 行 数据 流 。 例 如 ， 无 线 网 络 和 xDSL 
接 入 网络 往 往 具 有 非 对 称 特性 ， 一 般 不 能 假定 上 行 链 路 〈 即 用 户 对 云 ) 服务 延迟 
与 下 行 链 路 〈 即 云 到 用 户 ) 延迟 相同 。 同 样 ，WAN 流量 往往 是 精心 设计 的 ， 因 此 
从 B 点 到 A 点 的 数据 流量 不 是 A 点 到 B 点 的 数据 流量 的 简单 反 转 。 


Availability, wr ~ (10.3) 


© 525960 是 年 平均 分 钟 数 ， 这 是 按 平均 每 年 365. 25 天 (考虑 闽 年 和 非 闷 年 )， 平 均 每 年 ，24 小 时 /天 ， 
60 分 钟 / 小 时 ， 计 算 的 结果 。 
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尾部 延迟 的 形状 是 由 特定 服务 组 件 的 吞吐 量 、 工 作 负载 、 队 列 / 调 度 机 制 和 策 
略 决定 的 。 在 端 到 端的 服务 交付 路 径 上 ， 这 些 特定 服务 、 组 件 和 设备 的 差异 会 产生 
不 同 的 尾部 形状 。 典 型 延迟 是 整个 端 到 端的 服务 路 径 延 迟 的 总 和 ， 尾 部 延迟 在 数学 
上 只 是 端 到 端 路 径 的 总 和 ， 且 尾部 方差 要 关系 独立 。 如 果 长 尾部 〈 即 高 方差 ) 事 
件 不 是 独立 的 ， 那 么 端 到 端的 服务 延迟 尾部 可 能 比 数 学 上 的 取 和 要 更 差 。 带 宽 预 留 
与 常规 操作 (没有 资源 预 留 ) 相 比 可 以 减少 尾部 方差 ， 因 为 预 留 使 得 沿路 径 的 元 
素 和 设备 风险 最 小 化 ， 不 会 出 现 因为 资源 带宽 拥塞 而 让 应 用 数据 强迫 在 队列 中 等 符 
的 情况 。 


10.2.4 端 到 端 服 务 可 靠 性 


正如 在 第 2.5.3 节 “ 服 务 可 靠 性 ”中 所 讨论 的 ， 可 靠 性 服务 清楚 地 表示 了 每 
BA (DPM) 中 产生 的 错误 〈 即 操作 失败 ) 。 无 线 接 和 人 是 可 以 有 数据 包 丢 失 的 ， 丢 
失 率 可 以 高 到 足以 让 超时 和 重 试 机 制 直 接 失 败 。 发 生 在 网 络 设备 (CONE) 或 
设施 故障 (例如 光纤 断裂 ) 和 一 些 退 态 事件 〈 如 闪电 ) ， 可 使 访问 操作 或 WAN 服 
务 短暂 中 断 ， 从 而 导致 最 终 用 户 的 事务 处 理 或 操作 失败 。 幸 运 的 是 ， 强 大 的 网 络 设 
备 和 设施 可 以 及 时 恢复 服务 (例如 切换 到 元 余部 件 或 备用 路 径 ) ， 这 样 稍 后 时 间 用 
户 重 试 操 作 就 会 成 功 。 值 得 注意 的 是 ， 网 络 拥塞 会 造成 数据 包 的 延迟 甚至 丢 包 ， 影 
响 终端 用 户 的 服务 可 靠 性 体验 。 不 幸 的 是 ， 由 于 无 线 接 人 退化 和 网 络 拥塞 ， 对 服务 
可 靠 性 的 影响 可 能 会 由 于 网 络 的 利用 率 、 无 线 传输 路 径 和 其 他 因素 而 不 同 ， 所 以 很 
难 做 出 通用 的 服务 可 靠 性 评估 。 由 端 到 端的 服务 路 径 中 的 每 个 组 件 引起 的 缺陷 率 可 
能 会 根据 时 间 (例如 流量 负载 的 变化 ) ， 无 线 设备 的 物理 位 置 ， 以 及 其 他 因素 的 影 
响 而 变化 。 然 而 , A (10.5) (估算 端 到 端 服务 缺陷 率 ) 给 出 了 计算 病 到 闯 服 务 可 
靠 性 的 一 个 方法 ， 这 里 : 

© DPMA、\,, 表 示 应 用 稳定 服务 的 可 靠 性 。 

© DPMx,s 表 示 典 型 XaaS 操作 的 增值 服务 可 靠 性 。 例 如 由 于 虚拟 机 的 停机 和 
暂停 ， 导 致 的 可 靠 性 变化 。 

DPMx,s 可 根据 云 服务 提供 商 的 策略 和 其 他 因素 而 变化 。 

DPM..。 表 示 用 户 采 用 无 线 和 有 线 接 入 网 络 的 影响 。 

DpM、 ,表示 紧 殷 网 络 故障 事件 的 平均 影响 。 

DPM yetworkTransiens 表示 绥 慢 性 和 有 瞬 态 事件 的 平均 影响 。 
DPMN。,。acoeesim 表 示 在 网 络 接 人 和 回程 网 络 服务 用 户 (假设 它 是 不 包括 在 
DPM yetworkTransiens) 中 拥塞 的 平均 影响 。 

DPME,wena = DPM,,,. + DPMy,,s + DPM, + DPM yerworkFaitures + DPM erworktransients + DPM yetworkCongesti 


(10. 
需要 注意 的 是 ， 通 过 将 应 用 部 署 在 多 个 云 数 据 中 心 ， 服 务 的 可 靠 性 一 般 不 会 
到 影响 ,因为 通常 用 户 设备 只 有 发 送 每 个 请 求 给 某 一 个 数据 中 心 的 应 用 实例 并 等 和 


140 云 应 用 中 的 服务 质量 


该 应 用 的 啊 应 。 从 理论 上 讲 ， 用 户 的 设备 可 以 局 动 发 送 并 行 元 余 请 求 到 不 同 的 云 数 
据 中 心 ， 但 目前 罕有 这 样 的 设计 。 


10.2.5 端 到 端 服务 可 访问 性 


正如 第 2.5.4 节 “服务 可 访问 性 ”中 所 讨论 的 ， 服务 的 可 访问 性 是 任意 一 个 
终端 用 户 能 够 成 功 地 完成 应 用 服务 访问 的 概率 ,例如 在 最 大 可 接受 时 间 内 登录 一 个 
安全 服务 ， 开 启 一 个 流 媒体 电影 或 建立 一 个 语音 或 视频 呼叫 。 这 些 复 杂 的 操作 ， 通 
常 需要 整个 服务 交付 路 径 的 高 可 用 ， 以 及 支持 应 用 操作 服务 的 高 可 靠 。 如 式 
(10.6) 所 示 (估算 端 到 端 服务 可 访问 性 ) ， 可 访问 性 ”的 故障 率 〈 即 无 法 达到 ) 
可 以 通过 对 端 到 端 不 可 用 率 与 所 有 请 求 操 作 的 故障 率 求 和 来 计算 。 
InaccessibilityDPM,, ri = UnavailabilityDPM,, yr + > ( DPM 


equiredActions 


+ DPM>,..) 


App 


- (10. 6) 

与 服务 可 用 性 类 似 ， 服 务 可 访问 性 可 以 通过 在 WAN 上 部 署 元 余 应 用 实例 得 到 
改进 。 评 估 宛 余 应 用 实例 的 可 访问 性 必须 考虑 客户 端 应 用 程序 的 自动 故障 检测 和 恢 
复 的 结构 和 性 能 。 如 果 这 个 机 制 足 够 快 ， 那 么 主 应 用 实例 不 可 用 是 可 以 被 检测 到 
的 ， 如 果 服 务 被 恢复 到 元 余 应 用 实例 足够 快 ， 那 么 终端 用 户 就 感觉 不 到 主 应 用 实例 
的 访问 已 经 失败 。 更 多 的 时 候 ， 主 应 用 实例 失败 会 导致 客户 端 首先 访问 失败 ， 这 会 
触发 客户 端 将 未 来 新 的 请 求 发 送 给 宛 余 应 用 实例 。- 当 最 终 用 户 再 次 重 试 之 前 失败 的 
操作 ， 客 户 端 发 送 请 求 到 一 个 元 余 的 应 用 实例 ， 请 求 随即 成 功 。 如 果 客户 端 无 法 从 
失败 的 主 应 用 实例 切换 走 (例如 因为 没有 元 余 的 应 用 实例 配置 )， 那 么 所 有 的 服务 
访问 请 求 都 会 失败 (实际 为 不 可 用 ) ， 直 到 主 应 用 实例 重新 恢复 服务 。 


10.2.6 端 到 端 服务 可 维持 性 


正如 第 2.5.5 节 “ 服 务 可 维持 性 ”所 讨论 的 ， 服务 的 可 维持 性 是 一 个 最 终 用 
户 的 服务 会 话 ( 例 如 ， 流 媒体 电影 ， 电 话 和 在 线 游戏 ) 能 够 连续 提供 可 接受 的 服 
务 质 量 ， 直 到 会 话 正常 终止 〈 即 电影 或 游戏 结束 和 用 户 电 话 断 开 ) 的 概率 。 服 务 
的 可 维持 性 故障 可 能 是 由 以 下 原因 3 引起 的 : 

1) 单一 的 接 入 网 络 组 件 故障 。 

2) 在 服务 交付 路 径 上 ， 组 件 缓慢 自动 恢复 。 例 如 ， 如 果 视 频 流 冻结 或 电话 沉 
默 几 秒 钟 以 上 ， 大 多 数 用 户 会 放弃 会 话 并 重新 打开 电影 或 重 拨 电话 ， 而 不 是 等 待 几 
十 秒 或 几 分 钟 时 间 等 其 慢 慢 恢复 。 如 采用 户 没 有 取消 会 话 或 放弃 这 种 缓慢 的 会 话 ， 
理想 的 话 ， 该 服务 将 自动 在 会 话 丢失 的 地 方 开始 重新 建立 会 话 ， 所 以 用 户 不 必 手 动 


”可 访问 性 可 以 表示 为 : DPM 乘 以 不 可 用 百分比 (Hiin, 99.999% 可 用 ， 则 0. 001% 不 可 用 ) HW 
10000 (El, 0. 001% 不 可 用 变 成 10DPM) 。 
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寻求 断 开 点 来 恢复 会 话 。 

3) 在 服务 交付 路 径 上 组 件 自动 恢复 失败 ， 例 如 由 于 元 余 组 件 会 话 数据 的 丢失 
或 不 一 致 。 

服务 的 可 维持 性 故障 可 以 通过 式 (10.7) (估算 端 到 端 服 务 可 维持 性 ) ， 对 每 
个 用 户 会 话 的 可 维持 性 故障 率 求 和 来 计算 。 
DPM nnes = DPM, + DPMyas +DPMA +DPM t DPM rtin T Moia 
| (10.7) 

服务 的 可 维持 性 通常 用 来 表示 一 个 应 用 实例 中 的 元 余 度 。 当 服务 恢复 到 一 个 不 
同 的 (例如 ， 地 理 元 余 ) 应 用 实例 ， 那 么 一 些 用 户 会 话 会 被 影响 ， 因 为 动态 变化 
的 会 话 数据 通常 不 能 在 两 个 不 同 的 实例 之 间 复 制 。 


10.2.7 “” 端 到 端 服务 吞吐 量 


正如 在 2.5.6 节 “ 服 务 吞 吐 量 ”中 所 讨论 的 ， 应 用 服务 吞吐 量 不 是 一 种 “ 端 
到 端 ” 的 度量 指标 ， 因 为 它 表 示 的 是 提供 给 所 有 用 户 的 总 吞吐 量 。 提 供给 最 终 用 
户 的 可 用 吞吐 量 通 稼 是 端 到 端 服 务 路 径 的 最 低 保证 服务 的 吞吐 量 。 作 为 一 个 实际 问 
题 ， 最 终 用 户 服务 的 吞吐 量 往往 有 限 的 ， 会 受到 接 人 网 络 〈 如 无 线 ) 和 用 户 终 端 
设备 的 限制 。 


10.2.8 ” 端 到 端 服务 时 间 戳 精度 


时 间 戳 精度 〈 第 2.5.7 节 ) 一 般 不 是 端 到 端的 能 够 代表 终端 用 户 服务 质量 
体验 的 测量 值 ， 因 为 用 户 通常 从 应 用 或 他 们 的 终端 设备 上 查看 时 间 惟 ， 大 多 数 用 
户 不 会 期 望 设备 和 通用 时 间 之 间 精 确 时 间 同 步 。 此 外 ， 绝 对 的 服务 时 间 惟 〈 例 
如 ， 什 么 时 间 一 个 事务 被 执行 ) 也 是 相对 隐 式 的 ， 被 认为 是 相对 于 服务 咒 的 时 
间 参 考 框架 ， 而 不 是 客户 端的 。 当 服务 器 的 时 间 参 考 框架 和 客户 问 的 参考 框架 大 
致 同步 时 ， 很 少 有 用 户 设 备 再 会 试图 报告 他 们 的 本 地 参考 时 间 ， 且 精度 不 会 超 
过 秒 。 


10.2.9 现实 检查 


三 层 模 型 和 简化 的 端 到 端的 故障 估算 是 帮助 理解 和 分 析 的 故障 的 有 效 工 具 ， 
但 它们 不 是 端 到 端 服务 交付 路 径 上 KQ 和 KPI 的 蔡 代 。 端 到 端的 观点 是 将 云 相 
关 故 障 作为 环境 因素 。 例 如 ,虚拟 化 架构 的 时 钟 拌 动 事件 对 用 户 服务 的 影响 
(第 4.6 节 “ 时 钟 事件 拌 动 ") 可 能 与 用 户 无 线 接 入 网 络 引 起 的 抖动 或 是 通过 线 
缆 接 人 网 络 的 端 到 端 抖动 类 似 。 因 此 ， 云 消费 者 应 该 更 多 地 考虑 最 终 用 户 在 他 们 
设备 上 的 服务 体验 ， 专 注 于 减少 服务 缺陷 ， 因 为 这 最 可 能 影响 最 终 用 户 的 服务 
体验 。 


App NetworkFailures 
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10.3 分 布 式 和 集中 式 的 云 数 据 中 心 


正如 图 10.4 所 示 ， 许 多 基于 云 的 应 用 很 有 可 能 部 署 到 多 个 数据 中 心 。 
。 通过 减少 托管 应 用 的 数据 中 心 与 最 终 用 户 之 间 的 IP 包 传 输 时 延 ， 来 降低 最 
终 用 户 的 服务 延 述 ; 

o 提高 对 灾难 性 事件 的 弹性 服务 能 力 (具体 细节 见 10. 5 节 “ 灾 难 恢复 ”) 。 

一 旦 决定 将 应 用 实例 部 署 到 多 个 数据 中 心 ( 这 些 数 据 中 心 为 了 业务 的 持续 和 
灾后 恢复 会 保持 地 理 上 的 分 离 ) ， 必 须 在 策略 上 做 出 平衡 考虑 : 如 果 将 目标 应 用 部 
署 到 少数 的 大 区 域 去 数据 中 心 ， 这 些 数据 中 心 可 能 会 离 最 终 用 户 比较 远 ， 如 果 部 团 
到 大 量 小 的 分 布 式 云 数据 中 心 ， 它 们 可 能 在 地 理 上 接近 更 多 的 最 终 用 户 。 这 一 他 讨 
论 了 是 将 数据 部 署 到 更 多 的 小 规模 云 数 据 中 心 还 是 部 署 到 数量 少 的 大 规模 云 数 据 中 
CH A ME, 10.3.1 节 “ 集 中 式 云 数 据 中 心 ”， 介 绍 了 大 规模 区 域 性 数据 中 心 。 
10. 3.2 节 “ 分 布 式 云 数据 中 心 ” ， 讨 论 了 小 规模 的 云 数据 中 心 。 


10.3.1 集中 式 云 数据 中 心 


为 了 减少 操作 上 的 开销 ， 云 服务 提供 商 创建 了 少量 仓库 规模 的 集中 式 云 数据 中 
心 ， 这 些 中 心 有 能 力 服 务 比较 大 的 地 理 区 域 。 这 些 大 规模 数据 中 心 不 再 是 由 成 排 成 
膝 的 计算 机 设备 构成 ， 而 是 装 满 计算 机 设备 的 集装箱 。 数 以 千 计 的 服务 器 已 经 在 工 
三 里 提前 安 闻 好 了 ， 所 以 这 些 集装箱 在 云 数 据 中 心 可 以 很 容易 运输 和 安装 。 

仓库 规模 的 数据 中 心 通常 会 有 到 多 个 互联 网 服务 提供 商 (SP) 骨干 网 络 的 高 
效 、 便 捷 的 连接 链 路 ， 从 而 确保 大 量 的 用 户 所 产生 的 巨大 流量 能 够 加 载 到 数据 中 
心 。 在 “大 云 ” 中 ， 只 使 用 少量 的 仓库 规模 的 云 数 据 中心 ， 终端 用 户 的 数据 流量 
通过 无 线 或 者 有 线 设备 ， 经 过 网 络 到 达 它 们 的 ISP 核心 网 络 。 如 图 10.9 fra, 在 
许多 情况 下 ， 流 量 会 经 由 一 个 比较 长 的 传输 网 络 ， 可 能 还 会 经 过 多 个 ISP 网 络 ， 才 
能 到 达 一 个 由 特定 云 服 务 提供 商 管理 的 集中 式 数据 中 心 。 


10.3.2 分 布 式 云 数据 中 心 


逻辑 上 可 选择 的 少量 仓库 规模 的 集中 式 云 数据 中 心 ， 是 由 许多 略 小 的 分 布 式 云 
数据 中 心 (如 图 10. 10 所 示 ) 组 成 。 云 数据 中 心 被 部 署 到 了 最 接近 最 终 用 户 的 网 
络 的 边界 ， 甚 至 可 能 是 在 终止 ISP 访问 的 办 公 室 里 ， 或 是 与 无 线 基站 集成 在 一 起 。 
在 分 布 式 云 的 情况 下 ， 大 部 分 用 户 能 够 从 安装 在 他 们 当地 办 公 室 中 的 云 计 算 资源 或 
者 ISP 城 域 网 (MAN) 的 数据 中 心 获 取 服 务 ， 这 样 ， 他 们 的 IP 流量 不 必 通 过 广 域 
网 (WAN)。 这 既 减 少 了 传输 设备 的 物理 距离 (例如 光纤 的 长 度 ) 又 削减 了 传输 、 
路 由 和 安全 设备 ， 而 这 些 都 是 IP 流量 需要 经 过 的 ， 这 因此 也 减少 了 端 到 端 服务 的 
延迟 。 需 要 注意 的 是 ， 这 虽然 减少 了 端 对 端 IP 流量 的 延迟 ， 但 当 一 个 用 户 通过 有 
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集中 式 云 由 一 些 通过 WAN 连 接 服务 用 户 的 大 
型 云 数据 中 心 组 成 
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图 10.9 集中 式 云 数据 中 心 场景 






分 布 式 云 由 许多 小 规模 的 服务 
周边 用 户 的 云 数据 中 心 构成 ， 
-| 这 使 得 WAN, 甚 至 MAN 的 延迟 
和 风险 可 大 排除 在 服务 传输 路 
径 之 外 





图 10. 10 ”分 布 式 云 数据 中 心 场景 


线 连接 网 络 时 ， 减 少 的 WAN 延迟 可 能 比 无 线 访问 的 延迟 要 小 。 本 地 分 布 式 云 数据 
中 心 能 够 节省 WAN 带宽 ， 并 通过 将 数据 存储 到 就 近 能 用 到 的 地 方 来 降低 延迟 。 

对 于 分 布 式 数据 中 心 通过 无 线 IP 进行 访问 ， 可 以 将 小 型 分 布 式 云 数据 中 心 向 
无 线 网 络 的 边界 推动 。 应 用 可 以 从 部 署 到 多 个 本 地 数据 中 心 获得 好 处 ， 例 如 一 个 内 
容 传送 网 络 (CDN) ， 可 以 缓存 最 终 用 户 的 内 容 ， 因 为 这 样 既 减少 了 互联 网 接 人 服 
务 提供 商 的 广域网 传输 ， 又 改善 了 最 终 用 户 的 体验 。 


10.3.3 服务 可 用 性 考虑 


参见 第 10. 2. 2 节 “ 端 到 端 服 务 可 用 性 ”中 的 式 〈10.2) ， 服 务 可 用 性 问题 是 : 
消除 服务 交付 路 径 上 的 WAN 抵消 了 分 布 式 数 据 中 心 的 可 用 性 ， 那 么 ， 分 布 式 数据 
中 心 有 没 有 可 能 增加 停机 时 间 ? 让 我 们 仔细 考虑 一 下 驱动 服务 可 用 性 的 因素 〈 在 
第 5 章 “ 应 用 元 余 和 云 计 算 ” 中 介绍 ) : 
© 停机 率 。 停 机 率 是 下 列 因 素 的 函数 : 
o 关键 故障 率 。 影 响 服务 的 故障 事件 的 发 生 频 率 如 何 ? 我 们 假设 (无 数 
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据 ) ， 在 云 数 据 中 心 的 关键 故障 率 (例如 ， 软 件 崩 溃 、 硬 件 故障 ) 与 大 
量 集中 仓库 数据 中 心中 无 数 的 运行 在 集装箱 式 硬件 上 的 虚拟 机 实例 是 独 
立 的 ， 与 小 型 的 分 布 式 云 数据 中 心里 少量 的 运行 在 机 架 式 硬件 上 的 虚拟 
机 实例 也 是 独立 的 。 毕 竟 ， 云 服务 提供 商 要 负责 屏蔽 所 有 来 自 其 他 虚拟 
机 的 虚拟 机 实例 ， 所 以 在 大 量 的 集中 式 数据 中 心 存在 大 量 的 虚拟 机 ， 应 
该 既 不 增加 也 不 减少 目标 应 用 虚拟 机 实例 的 风险 。 

o 自动 故障 检测 的 成 功率 。 一 个 影响 服务 的 故障 被 自动 检测 并 尽 可 能 快 地 
隔离 起 来 ， 以 避免 长 时 间 停 机 的 影响 ， 这 一 处 理 的 成 功率 有 多 大 呢 ? 如 
果 使 用 相同 的 软件 监测 和 高 可 用 架构 ， 自 动 故障 检测 机 制 的 有 效 性 应 该 
与 云 数据 中 心 的 规模 独立 。 

o 自动 恢复 成 功率 。 由 系统 自动 发 起 ， 能 够 成 功 地 减轻 用 户 可 见 的 故障 影 
响 ， 从 而 消除 手动 恢复 的 时 间 消 耗 ， 这 一 处 理 过 程 的 成 功 可 能 性 有 多 大 ? 
使 用 相同 的 高 可 用 平台 和 架构 ， 自 动 恢复 成 功 的 概率 应 该 是 与 云 数据 中 
心 的 规模 相 独立 的 ， 应 用 和 云 数据 中 心 需要 有 是 够 的 在 线 或 接近 在 线 的 
空闲 容量 ， 服 务 可 以 通过 原始 数据 中 心 进行 恢复 ， 而 不 必 通 过 其 他 数据 
中 心 。 

故障 停机 持续 时 间 。 采 用 自动 化 水 平和 复杂 性 相似 的 操作 策略 的 前 提 下 ， 

严重 故障 导致 的 中 断 时 间 在 集中 式 和 分 布 式 云 计算 数据 中 心 是 相当 的 。 我 

们 认为 所 有 的 云 数据 中 心 会 保持 足够 的 备用 硬件 ， 即 在 数据 中 心 ， 非 灾难 

性 的 硬件 故障 可 以 通过 将 应 用 从 故障 的 硬件 迁移 到 “ 宛 余 ” 硬 件 上 而 在 几 

分 钟 内 修复 ,而 不 是 较 慢 地 手动 更 换 硬件 或 修理 恢复 全 部 的 应 用 元 余 (以 

降低 单一 暴露 风险 ) 。 如 果 在 当地 的 云 数 据 中 心中 不 包括 足够 的 备用 在 线 服 

务 容量 ， 恢 复 流 量 需 要 转移 到 另 一 个 数据 中 心 可 能 会 有 额外 的 延迟 。 中 断 

持续 时 间 真 正 的 区 别 在 于 ， 出 现 以 下 情况 一 一 在 线 宛 余 不 足 、 远 程 访问 不 

可 用 或 者 过 多 的 手动 排除 故障 需求 ， 修 复 操作 需要 复位 电路 板 或 是 需要 替 

换 一 个 故障 的 可 更 换 (硬件 ) 单元 (FRU) 。 健 壮 的 虚拟 化 /虚拟 化 管理 平 

台 、 硬 件 管理 架构 和 充足 的 在 线 / 附 近 在 线 宛 余 硬 件 容量 ， 应 该 能 使 人 工 手 

动 恢复 操作 (vs. 非 紧 急 修复 操作 ) 彻底 为 零 。 

故障 停机 影响 程度 。 服 务 中 断 的 业务 影响 程度 (如 影响 用 户 的 数量 ) 通 

常 是 非 线 性 的 。 毫 无 疑问 ， 服 务 供应 商 非常 渴望 可 以 有 效 地 减少 风险 ， 

因为 停机 事件 的 影响 足够 上 新 闻 或 是 引起 股票 价格 波动 ， 他 们 也 非常 

期 望 能 够 降低 具有 重大 影响 的 单个 事件 的 风险 。 更 多 部 署 在 小 型 云 数 

据 中 心 的 小 应 用 实例 ， 本 身 停机 事件 的 风险 很 小 ， 也 不 会 触发 内 外 部 

关注 。 

幸运 的 是 ， 发 生 在 小 型 本 地 数据 中 心 的 应 用 服务 中 断 事件 ， 对 用 户 的 影响 应 该 
不 会 超出 当地 附近 地 域 范围 。 相 比 之 下 ， 在 一 个 大 型 的 仓库 规模 数据 中 心 ， 一 个 区 
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域 应 用 实例 的 故障 影响 可 能 会 潜在 地 波及 大 量 的 用 户 ， 更 有 可 能 招致 应 用 服务 提供 
商 引 起 负面 关注 。 


10.3.4 服务 延迟 考虑 


比 起 通过 城 域 网 和 广域网 访问 的 区 域 仓库 规模 的 云 数 据 中 心 ， 连 接 到 用 户 接 入 
网 络 的 分 布 式 云 数据 中 心 有 以 下 固有 的 服务 质量 和 延迟 优势 : 


更 少 的 单 向 服务 延迟 。 物 理 上 远离 数据 中 心 的 用 户 可 能 会 经 历 更 高 的 服务 

延迟 ， 可 归 因 于 以 下 两 方面 : 

o 传输 延迟 。 光 速 传播 km 需要 超过 5ps， 在 用 户 设备 和 云 计算 数据 中 心 
之 间 进行 数据 传输 必定 需要 累积 光纤 、 同 轴 电 缆 、 双 绞 线 或 者 空气 的 传 
输 延 迟 。 

o 设备 延迟 。 用 户 的 设备 和 应 用 之 间 传输 路 径 上 的 每 个 路 由 器 、 交 换 机 、 
中 继 器 和 其 他 设备 都 会 增加 数据 包 分 组 的 延迟 。 

小 的 拌 动 消除 缓冲 区 是 可 行 的 。 客 户 端 和 服务 器 通常 有 抖动 消除 缓冲 区 ， 

可 为 流 媒体 等 掩盖 网 络 拥堵 和 其 他 不 利 因素 的 影响 。 将 数据 中 心 部 署 在 物 

理 上 接近 最 终 用 户 的 地 点 ， 可 以 使 小 拌 动 消 除 缓冲 区 成 为 可 能 ， 因 为 很 少 

有 拌 动 被 引入 到 端 到 端 路 径 中 ， 原 因 如 下 : 

o P 包 很 少 会 通过 不 同 的 路 由 跨越 终端 用 户 和 应 用 实例 之 间 的 广域网 ， 从 
而 经 历 不 同 的 传输 延迟 。 

o 很 少 需要 包 重 排 。 经 过 消除 城 域 网 与 广域网 设备 和 设施 后 ， 降 低 了 单个 
IP 数据 包 采 取 不 同 路 由 的 风险 ， 从 而 能 够 按 序 到 达 。 

o 很 少 的 包 拌 动 。IP 流量 很 少 流 经 拥塞 点 (需要 排队 ， 从 而 引入 包 拌 动 ) 。 


值得 注意 的 是 ， 使 用 分 布 式 云 数据 中 心 ， 物 理 上 更 接近 最 终 用 户 ， 单 向 传输 延 
迟 可 能 比 最 终 用 户 的 无 线 接 和 人 延迟 还 要 小 。 | 


10.3.5 服务 可 靠 性 考虑 


服务 可 靠 性 缺陷 通常 源 于 以 下 原因 : 
© 准 关键 应 用 软件 故障 。 软 件 漏洞 ， 缓 冲 区 溢出 ， 关 键 资 源 争 用 ， 应 用 程序 


切换 或 类 似 的 事件 会 导致 单一 的 服务 请 求 失败 。 我 们 假设 (没有 数据 )， 
在 一 个 特定 的 应 用 实例 中 ， 应 用 的 服务 可 靠 性 (DPM) 是 独立 于 规模 的 
(如 虚拟 机 实例 的 数量 ) 。 这 意味 着 事务 处 理 的 失败 率 是 独立 的 ,不管 是 服 
务 于 大 量 的 活跃 用 户 ( 如 数 万 或 数 十 万 ) 的 大 型 应 用 实例 (如 100 个 虚拟 
机 ) ， 或 是 一 个 服务 于 少量 的 活跃 用 户 〈 如 数 十 到 数 百 ) 的 小 应 用 实例 
(例如 3 个 虚拟 机 ) 。 


© 网 络 故障 和 缺陷 。 包 丢失 、 延 迟 和 其 他 需要 花费 时 间 去 检测 和 恢复 的 故障 ， 


都 会 增加 超过 最 大 可 接受 的 服务 等 待 时 间 的 风险 ,一 旦 超过 最 大 可 接受 的 
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服务 等 竺 时间， 操作 将 被 视 为 失败 ， 从 而 影响 服务 的 可 靠 性 指标 。 越 多 的 
网 络 设施 〈 如 光纤 的 长 度 ) 和 更 多 的 网 络 元 素 〈 如 路 由 上 秀和 安全 设备 )， 
事务 延迟 超过 最 大 可 接受 服务 延迟 的 可 能 性 就 越 大 。 
因此 ， 路 途 遥 远 的 区 域 数 据 中 心 ， 由 于 广域网 设备 和 设施 的 损耗 ， 其 端 到 端 服 
务 可 靠 性 可 能 略 差 于 本 地 数据 中 心 。 


10.3.6 服务 可 访问 性 考虑 


对 于 部 署 到 本 地 分 布 式 数 据 中 心 的 应 用 程序 ， 端 到 端 服务 的 可 访问 性 应 该 稍微 
好 些 ， 因 为 端 到 端 服 务 不 会 受到 广域网 〈 或 者 城 域 网 ) 的 影响 。 


10.3.7 服务 可 维持 性 考虑 


对 于 部 署 到 本 地 分 布 式 数 据 中 心 的 应 用 程序 ， 端 到 端 服务 的 可 维持 性 应 该 更 
好 ， 因 为 服务 传递 的 路 径 不 包括 广域网 (或 者 城 域 网 ) 的 网 络 设备 和 设施 ， 从 而 
可 以 明显 降低 服务 受 其 故障 影响 的 风险 。 


10.3.8 资源 分 配 考虑 


云 数据 中 心 的 规模 会 影响 资源 分 配 的 概率 ， 即 云 用 户 请 求 的 资源 被 “库存 ” 
在 数据 中 心 ， 而 不 是 依据 增长 需要 执行 资源 分 配 。 四 种 资源 是 由 laas 提供 商 〈 计 
算 处 理 ， 非 持久 性 存储 ， 持 久 性 存储 和 网 络 ) 提供 的 ， 其 中 三 种 资源 一 一 计算 处 
理 、 内 存 和 网 络 一 一 本 质 上 是 可 互 换 的 ， 所 以 在 选择 特定 的 资源 分 配给 特定 应 用 程 
序 时 是 灵活 的 ， 因 为 相同 配置 的 资源 基本 上 可 以 互 换 。 相 反 ， 分配 的 持久 性 存储 往 
往 是 不 可 替代 的 ， 因 为 应 用 程序 的 用 户 数据 不 能 与 另 一 个 应 用 程序 互 换 ， 而 一 个 用 
户 的 数据 也 通常 是 不 能 与 其 他 用 户 互 换 。 一 个 简单 的 例子 是 电子 邮件 或 语音 邮件 。 
用 户 需要 访问 个 人 邮箱 ， 上 毕竟， 成 功 地 连接 到 电子 邮件 或 语音 邮件 系统 却 收 到 
“你 的 邮箱 当前 不 可 用 ”的 通知 ， 不 是 一 个 令 人 满意 的 用 户 体验 。 因 此 ， 服 务 的 可 
用 性 要 求 有 合适 的 可 替代 的 计算 处 理 ， 内 存 和 网 络 资源 ， 以 及 能 够 正确 地 提供 用 户 
请 求 服务 的 不 可 替代 的 持久 性 存储 。 

持久 性 存储 的 大 小 ， 会 间接 影响 数据 的 机 动 性 和 可 达 性 。 虽 然 它 下 载 并 缓存 比 
较 小 的 用 户 特 定数 据 (例如 ， 用 户 配置 文件 信息 ) 到 一 个 不 同 的 数据 中 心 是 可 行 
的 ， 但 下 载 数 千 兆 字 节 数据 库 到 另 一 个 云 数据 中 心 并 不 可 行 。 因 此 ， 对 于 以 数据 为 
中 心 的 应 用 程序 ， 配 置 可 替代 的 计算 处 理 、 内 存 和 大 量 的 网 络 资源 以 及 不 可 替代 
(不 易 移动 ) 的 持久 性 存储 通常 是 最 实用 的 ， 而 带 有 少量 面向 特定 用 户 的 持久 性 存 
储 的 应 用 ， 可 以 被 放 到 最 便捷 的 数据 中 心 。 配 置 持 久 性 数据 、 计 算 处 理 资源 和 存储 
资源 的 方法 ， 是 部 署 一 个 多 层次 的 解决 方案 架构 ， 这 将 在 10.4 节 “ 多 层次 解决 方 
RAR” PATE. 
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10.4 多 层 解 决 方案 架构 


第 10. 1 节 “ 端 到 端 服务 环境 ”中 讨论 了 一 个 简单 的 解决 方案 架构 ， 其 中 所 有 
应 用 服务 器 组 件 和 数据 被 配置 在 一 个 单一 的 数据 中 心 ， 这 样 用 户 的 服务 请 求 会 从 用 
户 的 设备 传送 到 单一 的 数据 中 心 并 反馈 回来 。 许 多 解决 方案 的 部 署 需要 更 复杂 的 架 
构 ， 这 依赖 于 服务 路 径 上 的 两 层 以 上 的 数据 中 心 的 支持 。 例 如 ， 企 业 可 能 依赖 于 一 
个 在 公共 云 中 的 计算 资源 直接 服务 于 最 终 用 户 ， 但 也 保留 企业 数据 在 一 个 私有 数据 
中 心 。 在 这 种 情况 下 ， 端 到 端的 服务 路 径 将 从 最 终 用 户 设备 通过 接 人 网 络 和 广域网 
一 直到 公共 云 数据 中 心 ( I 级， 应 用 程序 驻 留 ) ， 然 后 再 通过 接 人 网 和 广域网 一 直 
到 私有 云 的 数据 中 心 ( 级， 企业 数据 驻 留 ) 。 

在 两 层 结 构 中 ， 端 到 端 服务 交付 路 径 可 以 逻辑 上 被 建 模 为 : 在 第 10.1 节 “ 端 
到 端 服务 环境 ”中 的 端 到 端 模型 中 ， 增 加 接 人 人 网络、 广域网 和 第 二 数据 中 心 。 
图 10. 11 显 示 了 一 个 简单 的 两 层 配置 。 从 逻辑 上 讲 ， 通 过 以 下 三 项 ， 对 端 到 端 路 径 
进行 扩展 。 

端 到 端 缺陷 “X”: 
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图 10.11 多 层 解决 方案 架构 示例 


e Tier I] WAN 表示 第 一 层 与 第 二 层 数 据 中 心 之 间 的 网 络 

e Tier [x,s 表 示 第 二 数据 中 心 的 云 架 构 服 务 

e Tier ,表示 第 二 层 数据 中 心中 的 应 用 (例如 数据 库 服 务 器 ) 

端 到 端 服务 的 可 用 性 ， 延 迟 ， 可 靠 性 ， 可 访问 性 ， 可 维持 性 ， 时 间 惟 精确 度 和 
吞吐 量 (在 第 10. 2.2 ~ 10. 2.7 节 已 讨论 ) 应 该 是 与 额外 增加 的 网 络 接 人 ， 广 域 网 
和 数据 中 心 有 相 同 的 缺陷 。 
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10.5 ”灾难 恢复 与 地 理 元 余 


灾难 恢复 计划 描述 了 在 灾难 事件 (如 地 震 或 火灾 ， 那 会 使 数据 中 心 无 法 使 用 ) 
之 后 ， 关 键 业 务 服务 如 何 恢复 。 灾 难 恢复 时 间 目 标 (RTO) 和 恢复 点 目标 (RPO) 
是 用 于 灾难 恢复 的 KQI， 将 在 10. 5. 1 节 讨 论 。 地 理 元 余 架 构 将 在 10. 5. 2 节 讨 论 ， 
地 理 元 余 的 服务 质量 考虑 将 在 10.5.3 节 讨 论 。 为 确保 能 满足 RPO, RYN SEB 
盖 了 整个 10.5.4 节 。 可 用 区 域 域 和 灾难 恢复 将 会 在 10.5.5 节 讨 论 。 值 得 注意 的 
是 ， 在 第 亚 部 分 给 出 了 两 种 灾难 恢复 的 分 析 方 法 : 15.8 节 “ 恢 复 点 目标 分 析 ”， 
15.9 节 “ 恢 复 时 间 目 标 分 析 ”。 


10.5.1 灾难 恢复 目标 


最 佳 的 实践 和 可 信 的 做 法 是 企业 建立 业务 连续 性 计划 ， 以 保证 关键 业务 系统 和 
数据 在 灾害 或 灾难 事件 导致 数据 中 心 不 可 用 后 ， 可 以 进行 恢复 。 对 于 信息 系统 ， 业 
务 连续 性 可 以 通过 两 个 关键 性 能 指标 来 定义 ， 如 图 10. 12 Bra: 






恢复 时 间 目 标 是 灾难 宣告 之 后 到 服务 
恢复 至 备份 站 点 的 目标 时 间 


恢复 总 目标 是 系统 状况 能 够 恢复 至 备份 站 点 的 最 近 时 间 点 


图 10. 12 ”灾难 恢复 时 间 与 恢复 点 目标 


。 RTO 是 在 灾难 事件 发 生 之 后 请 求 恢复 用 户 服务 的 时 间 。 当 采用 人 工 局 动 灾 
难 恢复 方式 时 ，RTO 通常 被 定义 为 由 一 个 业务 主管 正式 宣布 灾难 发 生 ， 然 
后 灾难 恢复 计划 正式 启动 ， 直 到 特定 的 一 部 分 用 户 〈 例 如 ，90% ) 已 恢复 
服务 的 时 间 。 当 采用 自动 灾难 恢复 启动 方式 时 ，RTO 被 定义 为 从 用 户 服务 
遭受 灾害 事件 影响 开始 ， 到 特定 的 一 部 分 用 户 服务 得 到 恢复 的 时 间 。 传 统 
E, RTO 目标 以 小 时 和 天 为 单位 进行 计量 ,但 许多 关键 系统 要 求 RTO 目标 
按 分 钟 计算 。 

。 RPO 是 变化 的 数据 量 ， 因 为 当 服 务 从 离线 数据 (MAH. RRMA) 恢 
复 过 来 时 ， 数 据 可 能 会 丢失 。 例 如 ， 如 果 数 据 库 每 隔 15min 将 更 改 的 数据 
复制 到 一 个 地 理 上 遥远 的 数据 中 心 ， 那 么 RPO 应 该 大 约 15min， 因 为 只 有 
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多 于 15min 的 数据 (在 最 后 一 次 备份 和 灾难 事件 之 间 ) 更 改 可 能 会 丢失 
(在 第 15. 8 节 “ 恢 复 点 目标 分 析 ” ， 可 以 看 到 一 个 糟糕 情况 的 例子 )。 不 同 
的 应 用 有 不 同 的 RPO 目标 。 例 如 ， 灾 难 恢复 中 失去 24 小 时 的 社交 网 络 更 
新 可 能 是 可 以 接受 的 ， 失 去 24 小 时 销售 ， 库 存 变化 或 金融 交易 数据 ， 可 能 
会 损害 企业 在 灾难 事件 之 后 的 生存 能 力 。 
无 论 如 何 ， 定 期 测试 和 实践 灾难 恢复 机 制 是 非常 重要 的 ， 尤 其 对 于 重要 应 用 ， 
必须 确保 恢复 过 程 被 很 好 地 理解 和 改正 ， 恢 复 目标 可 以 达到 。 


10.5.2 ”地理 元 余 架构 


传统 的 高 可 用 架构 可 以 精细 地 管理 一 个 逻辑 系统 中 的 元 余 资 源 ， 以 减少 稼 规 
(单个 节点 ) 故障 事件 的 影响 ,但 是 灾难 事件 可 能 同时 影响 单个 系统 实例 里 的 多 个 
组 件 。 例 如 一 个 灾难 性 事件 可 能 影响 或 者 毁坏 了 一 个 数据 中 心 ， 可 能 使 单个 的 应 用 
实例 丧失 了 减轻 用 户 服务 影 响 的 能 力 。 为 了 减轻 这 些 类 事件 的 影响 ， 一 个 完全 独立 
的 系统 实例 应 部 署 在 地 理 上 较 远 的 地 点 ， 可 以 用 来 在 灾难 发 生 时 恢复 受 影响 的 
流量 。 

地 理 元 余 架 构 的 特点 是 将 完全 独立 的 应 用 实例 部 署 于 地 理 上 较 远 的 地 点 ， 以 保 
持 灾难 事件 发 生 后 业务 的 连续 性 。 在 发 生 灾难 时 〈 如 地 震 和 火灾 ) ， 用 户 流量 自动 
或 手动 地 改 到 地 理 元 余地 点 从 而 使 服务 能 够 继续 下 去 。 地 理 元 余 恢 复 通常 有 一 个 
比 传统 元 余 架 构 更 长 的 RTO 和 RPO。 通 常 是 在 常规 的 元 余 不 能 用 时 ， 地 理 元 余 才 
会 用 到 。 

以 下 是 通过 地 理 元 余 恢 复 受 影响 的 终端 设备 的 三 个 基本 策略 : 

© 手动 激活 的 地 理 元 余 恢 复 。 传 统 的 灾难 恢复 计划 通过 相关 部 门 作出 正式 的 

灾难 声明 后 手动 激活 。 

© 服务 器 驱动 的 地 理 元 余 恢 复 。 地 理 元 余 应 用 〈 服 务 器 ) 实例 互相 检测 。 如 

果 正 常 运行 的 服务 器 在 一 个 特定 的 应 用 上 不 能 访问 了 ， 那 么 地 理 宛 余 应 用 
实例 会 自动 的 来 接管 用 户 的 服务 。 

。 用 户 发 起 的 地 理 元 余 恢 复 。 应 用 的 客户 端 实例 能 够 控制 使 用 哪 一 个 应 用 服 

务 器 实例 。 如 果 一 个 个 单独 的 客户 端 实例 认为 选 定 的 服务 器 不 能 够 访问 ， 
那么 它 会 挑选 和 连接 一 个 备用 的 应 用 服务 实例 。 

以 上 这 三 个 策略 ， 有 不 同 的 操作 步骤 。 手 动 激活 地 理 见 余 备 份 策略 一 般 具 有 
最 明确 的 可 见 性 和 可 控制 性 ， 相 反 ， 客 户 端 发 起 的 地 理 元 余 恢 复 策略 具有 最 少 的 显 
式 可 见 性 和 可 控制 性 。 


10.5.3 服务 质量 考虑 


图 10. 13 显示 了 一 个 地 理 元 余 恢 复 的 简单 实例 。 这 里 ， 客 户 端 设备 和 客户 的 接 
入 网 络 保持 不 变 ， 灾 难 恢 复 机 制 替换 了 WAN, Xas 接 入 网 ， 以 及 主 应 用 实例 与 
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WAN，Xaas 接 人 网 的 架构 ， 还 有 到 另 一 个 替换 应 用 实例 的 架构 。 由 于 客户 端 设备 
通常 会 指派 到 物理 上 最 近 的 数据 中 心 ， 那 些 拥有 备用 应 用 实例 的 数据 中 心 可 能 在 地 
理 上 与 终端 用 户 有 着 更 远 的 距离 ， 所 以 ， 广 域 网 的 损耗 ， 特 别 是 延迟 ， 对 于 用 户 来 
说 比 备用 应 用 实例 提供 的 服务 延迟 要 更 大 。 对 XaaS 接 人 网 络 和 架构 替换 的 损耗 可 
能 因 服 务 提供 商 的 不 同 而 不 同 。 当 相同 的 Xaas 提供 商 同 时 使 用 了 主 用 和 备用 的 云 
数据 中 心 ， 那 么 提供 商 的 服务 质量 缺陷 可 能 相同 。 但 是 如 果 不 同 的 XaaS 服务 提供 
商 或 者 不 同 的 服务 提供 者 ， 它 们 的 服务 质量 缺陷 是 不 同 的 。 同 样 ， 如 果 两 个 应 用 的 
配置 和 工作 负载 具有 可 比 性 ， 替 代 应 用 实例 服务 缺陷 应 该 类 似 于 主 实例 服务 缺陷 。 
需要 注意 的 是 ， 当 终端 用 户 正 在 恢复 到 备用 点 时 ， 用 户 服务 会 因为 极端 重 的 负载 
(例如 由 于 需要 在 备用 站 点 重新 注册 ) 可 能 暂时 退化 ， 所 以 应 该 在 稳定 运行 期 间 比 
较 主 用 和 备用 之 间 的 服务 质量 缺陷 (例如 服务 恢复 操作 已 完成 ) 。 
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图 10.13 ”地理 元 余 的 服务 缺陷 模型 


10.5.4 恢复 点 考虑 


由 于 成 本 和 性 能 原因 ， 动 态 应 用 和 状态 信息 通常 不 通过 WAN 在 地 理 元 余 应 用 
实例 之 间 进 行 复制 。 幸 运 的 是 ， 在 地 理 元 余 (灾难 ) 恢复 方面 ， 许 多 应 用 和 用 户 
会 容忍 数据 波动 较 大 的 损失 和 部 分 的 永久 数据 的 损失 。 地 理 匈 余 服 务 恢复 通常 比 传 
统 元 余 或 并 发 见 余 恢 复 的 元 余 架 构 有 更 多 用 户 可 见 的 影响 。 从 最 终 用 户 的 角度 来 
看 ， 对 大 多 数 故 障 事件 ， 传 统 的 高 可 用 或 元 余 计算 策略 比 地 理 元 余 更 受 欢迎 ， 包 括 
那些 与 虚拟 机 有 关 的 故障 ， 特 别 是 跟 状态 相关 的 应 用 。 因 为 损失 一 些 易 失 性 数据 ， 
它们 可 能 经 历 更 大 的 服务 中 断 。 然 而 ， 地 理 宛 余 是 一 种 常见 的 策略 ， 能 够 非常 有 效 
地 减轻 灾难 性 事件 的 影响 ， 包 括 全 部 的 物理 损失 或 是 严重 的 网 络 资源 退化 等 。 

普通 的 数据 复制 策略 如 下 : 
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© 主 备 之 间 同 步 数据 复制 : 数据 的 变化 ， 特 别 是 挥发 性 数据 (如 状态 数据 ) 
的 变化 ,在 主 备 之 间 是 完全 同步 的 。 这 意味 着 ， 请 求 不 会 被 应 用 实例 执行 ， 
直到 成 功 地 执行 了 数据 的 复制 。 
主 备 之 间 异 步 数据 复制 : 在 数据 发 生变 化 之 后 ， 更 改 的 数据 要 在 主 备 之 间 
复制 。 不 管 主 服务 器 的 数据 如 何 因为 客户 端 请 求 而 发 生 更 改 ， 主 服务 需 辣 
备用 服务 器 发 送 更 新 ， 以 便 如 果 主 服务 器 失效 ， 备 用 服务 器 能 够 立刻 接管 
服务 并 保持 活动 的 请 求 。 通 常 ， 主 服务 器 会 一 直 等 待 ， 直 到 请 求 已 经 达到 
一 个 相对 稳定 的 状态 或 者 在 备份 请 求 的 状态 数据 之 前 ， 请 求 的 长 度 已 经 超 
H T NE. 
数据 存储 在 客户 端 : 用 户 数 据 ( 如 状态 和 上 下 文 信息 ) 被 储存 在 客户 端 本 
和 号 ， 所 以 如 果 主 服务 器 失败 ， 那么 客户 端 会 明确 发 出 正确 的 数据 到 备份 的 
服务 器 实例 。 如 果 客 户 端 和 服务 器 的 接口 是 HTTP (如 Web 服务 器 ) ， 那 么 
服务 器 可 以 用 cookies 在 客户 端 储存 和 找 回 数据 (假设 数据 本 身 是 被 正确 复 
制 并 且 由 服务 器 实例 所 共享 ) 。 
数据 备份 到 网 络 存 储 : 持久 性 数据 可 以 备份 到 远程 网 络 存储 设备 。 可 能 会 
有 从 网 络 备份 启动 恢复 的 一 个 小 的 延迟 ， 但 网 络 存 储 设备 的 带宽 将 限制 整 
个 数据 集 被 下 载 的 速度 ， 从 而 限制 了 RTO。 使 用 网 络 存 储 设备 ， 备 份 可 以 
更 频繁 ， 如 每 小 时 一 次 ， 对 于 某 些 应 用 程序 ， 这 足够 快 地 支持 了 不 稳定 
数据 。 3 
数据 备份 到 物理 介质 : 持久 性 数据 的 备份 是 周期 性 的 (通常 每 天 一 次 )， 存 
储 在 物理 备份 媒体 。 备 份 应 在 一 个 较 远 的 地 方 ， 这 样 如 果 主 服务 器 由 于 灾 
害 而 损失 ， 数 据 仍然 可 以 在 另 一 个 地 点 恢复 。 由 于 备份 在 物理 媒介 ， 本 质 
上 再 从 物理 备份 媒介 传送 到 目标 系统 时 会 有 延迟 。 
不 备份 : 不 稳定 的 数据 不 会 被 复制 、 同 步 或 全 部 备份 。 对 于 应 用 ， 这 一 点 
是 被 普遍 接受 的 ， 即 过 程 短暂 的 请 求 可 以 重 试 ， 例 如 打印 服务 器 的 打印 工 
作 。 备 份 所 有 的 打印 工作 虽然 在 理论 上 是 可 能 的 ,但 其 暂 态 特性 和 印刷 过 
程 本 号 的 整体 不 可 靠 性 (如 卡 纸 和 图 像 质量 问题 )， 意 味 着 用 户 需 要 随时 
准备 重新 提交 失败 的 任务 或 放弃 打印 任务 ， 而 不 是 期 待 那些 任务 从 备份 中 
恢复 。 

第 15. 8 节 “ 恢 复 点 目标 分 析 ” 给 出 了 在 设计 一 个 应 用 程序 的 数据 复制 架构 时 
非常 有 用 的 方法 。 


10.5.5 地 理 元 余 和 可 用 区 域 减 轻 灾 难 的 影响 


不 可 抗力 事件 (如 飓风 、 地 震 、 火 灾 ) 或 灾变 性 事件 (例如 负载 平衡 配置 
fate) 会 影响 在 该 物理 区 域内 某 些 或 所 有 的 架构 和 设备 。 通 过 实施 灾难 恢复 计 
划 可 以 减轻 灾难 风险 ， 将 服务 恢复 到 一 个 足够 远 ， 又 有 足够 的 资源 的 可 替换 的 数 
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据 中 心 。 可 用 区 域 是 一 个 略 轻 的 灾难 恢复 选择 ， 是 数据 中 心 架构 中 完全 独立 的 
“分 区 ”， 被 保存 在 一 个 单独 的 区 域 。 通 过 在 各 自 独 立 的 分 区 中 创建 和 维护 独立 
的 应 用 实例 ， 应 用 可 以 控制 严重 的 故障 ， 不 管 可 用 区 域 是 集中 式 的 还 是 地 理 上 分 
散在 几 个 区 域 。 理 论 上 ， 火 灾 或 类 似 事 件 的 影响 应 该 被 限制 在 一 个 单一 的 可 用 区 
域 域 。 然 而 ， 真 正 的 不 可 抗力 事件 ， 如 地 震 ， 可 能 会 影响 一 个 单一 的 数据 中 心 的 
多 个 可 用 区 域 。 因 此 ， 为 了 灾难 恢复 和 业务 连续 性 ， 企 业 应 仔细 权衡 风险 : 是 依 
靠 处 于 同一 地 域 的 彼此 隔离 的 可 用 区 域 ， 还 是 选择 更 多 地 分 散在 多 个 地 域 的 地 理 
TUR o 





本 部 分 包括 以 下 内 容 : 

e 第 11 章 “ 服 务 质量 的 问 责 ”， 应 用 程序 的 面向 资源 服务 边界 对 于 架构 和 
传统 部 署 模式 有 所 不 同 。 本 章 系 统 地 回顾 了 云 部 署 的 角色 ， 职 责 和 
问 责 。 

e 第 12 章 “ 服 务 可 用 性 度量 ”， 最 终 用 户 可 能 期 望 基于 云 的 应 用 和 传统 上 
部 署 的 应 用 程序 提供 相同 的 服务 质量 。 本 章 介 绍 的 传统 服务 可 用 性 度量 
可 以 应 用 于 云 部 署 。 

© 第 13 章 “ 应 用 程序 服务 质量 需求 ” ， 严 说 的 体系 ， 设 计 ， 和 验证 需要 明 
确 的 和 量化 的 服务 质量 要 求 ， 系 统 的 分 析 和 试验 可 以 验证 应 用 程序 的 面 
向 用 户 服务 期 望 是 始终 可 以 满足 的 、 可 行 的 和 可 能 的 。 本 章 提 供 了 基于 
云 的 应 用 程序 服务 质量 需求 的 例子 。 

e 第 14 章 “虚拟 化 架构 度量 与 管理 ”， 本 章 回顾 了 质量 度量 的 机 制 ， 是 由 
架构 通过 应 用 程序 的 面向 资源 服务 边界 传递 的 。 本 章 同 时 介绍 了 减少 虚 
拟 化 缺陷 的 高 层 策略 。 

® 第 15 章 “ 基 于 云 的 应 用 程序 分 析 ”， 本 章 介 绍 一 套 在 应 用 程序 设计 期 间 
能 够 严格 识别 和 减轻 服务 质量 风险 的 分 析 技 术 。 

e 第 16 章 “测试 注意 事项 ”， 本 章 考 虑 基于 云 的 应 用 程序 测试 ， 以 确保 服 
务 质 量 的 期 望 能 够 始终 被 满足 ， 尽 管 虚 拟 化 架构 的 缺陷 不 可 避免 。 

e 第 17 章 “ 关 键 点 连接 与 总 结 ” ， 本 章 讨 论 了 如 何在 新 的 和 演化 的 应 用 程 
序 中 使 用 第 亚 部 分 的 建议 。 


Ae lL 章 服务 质量 问 责 


云 消费 者 、 云 服务 提供 商 、 供 应 商 以 及 最 终 用户 ， 都 希望 能 够 最 快 最 有 效 地 解 
决 服务 中 出 现 的 缺陷 或 故障 。 快 速 有 效 的 问题 解决 方法 ， 需 要 迅速 而 精准 地 找 出 该 
问题 的 归属 ， 这 样 能 够 查 明 真正 的 根本 原因 并 且 采 取 有 效 的 纠正 措施 。 相 对 于 传统 
的 资源 配置 ， 云 部 署 能 够 巧妙 地 转换 角色 、 职 责 和 问 责 ， 因 此 ， 为 了 避免 服务 供应 
链 中 职责 与 问 责 差异 问题 的 出 现 ， 需要 对 角色 提前 进行 改进 ,重新 考虑 这 一 点 的 意 
义 是 非常 重要 的 。 本 章 中 ， 在 回顾 传统 部 署 问 责 机 制 的 基础 上 ， 分 析 了 云 服务 方式 
是 如 何 影响 那些 传统 问 责 机 制 的 。 


11.1 传统 的 问 责 


应 用 服务 运行 中 断 或 出 现 其 他 缺陷 的 原因 ， 通 常 可 分 为 三 大 类 : 

1) 归 因 于 产品 (或 供应 商 ) 引起 的 中 断 ，[TL_9000] 对 其 定义 为 “一 种 由 
于 以 下 原因 所 引发 的 运行 中 断 : 

a. 系统 的 设计 、 人 硬件 、 软 件 、 组 件 或 系统 中 其 他 部 分 ; 

b. 系统 的 设计 使 得 检修 停机 成 为 必需 ; 

c. 由 供应 商 执行 或 规定 的 支持 活动 ， 包 括 文件 、 训 练 、 管 理 、 命 令 、 安 装 、 
维护 、 技 术 支 持 、 软 件 或 硬件 的 更 换 活动 等 ; 

d. 供应 商 所 造成 的 程序 上 的 错误 ; 

e 系统 没 能 够 提供 必要 信息 进行 最 终 根本 原因 的 推断 ; 

f 以 上 的 一 个 或 多 个 ”。 

2) 可 归 因 于 用 户 引起 的 中 断 ，[TL 9000] 将 其 定义 为 “一 种 中 断 ， 主 要 归 因 
于 用 户 的 设备 或 支持 活动 ， 由 以 下 几 点 原因 引发 : 

a. 用 户 程序 上 的 错误 ; 

b. 办 公 环 境 ， 例 如 功率 、 电 流 、 接 地 、 温 度 、 湿 度 或 安全 性 问题 ; 

c， 以 上 一 个 或 多 个 ”。 

3) 可 归 因 于 外 部 原因 导致 的 中 断 ，[ TL_9000] 将 其 定义 为 “由 于 自然 灾害 ， 
例如 龙卷风 或 洪水 造成 的 中 断 ， 或 者 由 与 用 户 或 供应 商 无 关 的 第 三 方 造成 的 中 断 ， 
例如 商业 供电 中 断 ， 承 包 商 没有 按 供应 商 或 用 户 的 意图 工作 。 

服务 质量 缺陷 问 责 是 相对 直接 的 。 问 题 是 由 产品 的 供应 商 ， 客 户 (例如 购买 
并 操作 设备 的 IT HR), 或 外 部 因素 ， 都 超出 了 供应 商 或 是 用 户 的 控制 范围 。 
图 11. 1 展示 了 传统 问 责 机 制 ， 依 据 扩 展 的 8i + 2d (8 个 因素 + 数据 + 灾难 ) 模型 
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对 这 些 中 断 原因 进行 了 说 明 (参见 [Bauer2 ] 中 关于 扩展 的 8i 模型 的 全 面 描述 ) 。 


| 数据 l “上 用 户主 要 负责 自己 的 数据 


产品 引起 的 向 外 扩展 主要 由 以 下 原因 和 触发: 
a. 系统 设计 、 硬 件 、 软 件 、 组 件 或 系统 的 
其 他 部 分 ; 

b. 由 于 系统 或 设计 的 需要 计划 安排 的 向 外 
扩展 





客户 引起 的 向 外 扩展 主要 由 以 下 原因 触发 : 
a. 客户 的 (服务 提供 商 ) 程序 错误 ; 

b. 工作 环境 ， 例 如 电力 、 地 面 、 温 度 、 湿 
度 以 及 安全 问题 


外 部 因素 引起 的 向 外 扩展 往往 是 由 自然 灾 
害 ， 例 如 龙卷风 、 洪 灾 等 引起 的 。 而 这 类 
扩展 是 由 第 三 方 导致 的 ， 而 与 客户 或 服务 
提供 商 ( 供 应 商 ) 没有 关系 。 


图 11.1 传统 的 三 方 问 责 划分 : 供应 商 、 客 户 、 外 部 因素 





11.2 云 服务 交付 路 径 


云 计 算 通 过 明确 地 解 耦 应 用 软件 与 物理 计算 资源 、 内 存 、 存 储 和 网 络 架 构 ， 影 
响 了 第 11. 1 节 中 的 传统 问 责 模型 。 问 责 被 进一步 混淆 ， 应 用 的 “客户 ” (应 用 供 
应 商 的 客户 ， 不 是 应 用 的 最 终 用 户 ) ， 也 会 消费 架构 即 服务 (laaS) 和 云 服务 供应 
商 提供 的 其 他 服务 (例如 数据 库 即 服务 )。 反 过 来 ， 云 服务 提供 商 是 架构 设备 供应 
商 的 客户 。 这 种 去 用 户 和 云 服务 提供 商 之 间 的 传统 的 服务 边界 ， 以 及 云 架构 和 平台 
服务 之 间 的 边界 ， 增 加 了 接口 故障 和 问 责 失败 的 风险 。 

图 11. 2 表示 了 简化 的 基于 云 应 用 的 关键 服务 路 径 。 在 这 种 情况 下 ， 云 消费 者 
提供 电子 邮件 服务 给 最 终 用 户 。 云 用 户 从 供应 商 那里 购买 电子 邮件 应 用 软件 ， 然 后 
在 虚拟 机 实例 和 虚拟 化 存储 中 进行 配置 。 这 些 虚拟 机 实例 和 虚拟 化 存储 是 由 云 用 户 
选择 的 IaaS 提供 商 提 供 的 。IaaS 提供 商 的 服务 在 物理 上 是 通过 虚拟 机 服务 器 、 存 
储 阵 列 、 以 太 网 架构 和 laas 提供 商 从 设备 提供 商 获 得 的 其 他 设备 来 实现 的 。 一 些 
电子 邮件 服务 的 最 终 用 户 ， 访 问 云 消费 者 的 电子 邮件 应 用 实例 ， 是 通过 无 线 服务 供 
应 商 和 一 个 或 多 个 互联 网 服务 供应 商 来 实现 的 ， 它 们 在 最 终 用 户 设备 和 云 服务 提供 
商 的 数据 中 心 之 间 提 供 流量， 而 数据 中 心安 装 了 云 用 户 的 应 用 软件 实例 。 

图 11.2 的 服务 交付 路 径 的 例子 可 以 概括 为 图 11.3。 有 七 个 逻辑 服务 边界 在 图 
11.3 中 ， 三 个 是 产品 /设备 /应 用 程序 供应 商 与 拥有 和 操作 这 些 产 品 的 客户 之 间 的 
边界 ， 其 他 四 个 是 服务 消费 者 和 服务 提供 者 之 间 的 边界 。 三 个 产品 供应 商 与 客户 的 
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VM 服务 器 O MA 以 大 网 架构 
图 11.2 云 交 付 链 示 例 
接口 (在 图 11. 3 中 用 虚线 表示 ) WF: 


“全 部 ”服务 相关 边界 - 
7. 端 到 端 用 户 服务 传输 边界 eed aaah 


EE J 


















5. 云 消费 者 的 面向 客户 
服务 边界 
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2. 架 构 设备 产品 或 供应 商 
的 服务 边界 ，， 





图 11.3 云 交付 链 的 服务 边界 


1) 设备 供应 商 与 云 运 营 商 (例如 销售 网 络 架 构 与 IP 网 络 运营 商 ) 。 目 前 对 质 
量 的 度量 依据 TL 9000 测量 手册 和 产品 类 别 规定 。 

2) 设备 供应 商 与 云 提供 商 〈 例 如 ， 出 售 虚 拟 机 服务 器 和 控制 器 给 云 服务 提供 
商 ) 。 这 应 该 是 由 TL 9000 现 有 的 和 新 的 产品 类 别 所 覆盖 。 
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应 用 供应 商 与 云 消费 者 。 这 是 应 用 客户 所 面 对 的 产品 服务 质量 (例如 ， 
TL ee 有 四 个 服务 提供 者 与 服务 消费 者 的 接口 (如 图 
11.3 中 点 线 所 示 ) WF: 

4) 应 用 面向 资源 服务 边界 。 这 个 边界 的 主要 服务 风险 已 经 在 第 4 章 中 讨论 
NIe 

5) 云 消费 者 与 云 (IP) 运营 商 。IP 流量 通过 云 提 供 商 的 数据 中 心 传 给 IP 网 
络 服务 提供 商 ， 该 提供 商 控制 云 消费 者 的 通信 。 

6) 了 运营 商 服务 边界 。 在 数据 包 传输 过 程 中 ， 可 能 有 多 个 卫 网 络 服务 提供 
商 ， 包 括 无 线 服务 提供 商 ， 因 此 这 些 提供 者 之 间 存 在 类 似 的 服务 分 男 线 。 

7) 端 到 端的 用 户 服务 边界 。 这 是 基于 云 的 服务 和 最 终 用 户 之 间 的 逻辑 分 界 
线 。 这 种 划分 取决 于 服务 的 细节 ， 包 括 提供 服务 给 最 终 用 户 设 备 的 责任 以 及 到 达 该 
设备 的 网 络 的 责任 。 例 如 最 终 用 户 把 他 们 的 无 线 设 备 掉 到 了 坚硬 的 地 板 上 ， 摔 坏 
了 ， 这 属于 用 户 的 责任 。 例 如 机 顶 盒 故障 ， 这 属于 将 该 机 顶 盒 与 电视 进行 绑 定 的 服 
务 提 供 商 的 责任 。 当 然 ， 电 视 服 务 提供 商 可 能 会 有 级 联 责 任 ， 因 为 它 没 能 将 机 项 盒 
设置 为 设备 提供 商 和 云 提 供 商 (或 消费 者 ) 的 服务 边界 。 

明确 的 、 可 测量 的 服务 边界 有 利于 消费 者 、 供 应 商 和 整个 供应 链 系 统 ， 原 因 
如 下 : 

1) 标准 的 服务 度量 能 够 公平 地 对 历史 的 服务 性 能 和 质量 进行 对 照 比较 。 尽 管 
历史 的 行为 不 是 未 来 性 能 的 保证 ， 但 它 的 确 能 够 提供 可 能 的 性 能 优良 的 估计 。 

2) 简化 了 在 复杂 的 多 厂商 解决 方案 间 的 故障 隔离 。 

3) 可 以 明确 与 其 他 产品 和 服务 的 接口 。 

4) 能 够 对 在 全 球 部 署 的 产品 和 服务 进行 有 效 的 服务 质量 跟 踊 。 

5) 通过 将 焦点 放 在 服务 的 定量 性 能 水 平 上 ， 而 不 是 定义 和 协商 服务 度量 目 
身 ， 简 化 了 服务 水 平 协议 (SLA) 与 客户 的 协商 过 程 。 


11.3 云 问 责 


云 部 署 系统 的 问 责 和 在 传统 部 署 系统 的 服务 质量 问 责 完全 不 同 。Iaas 云 通过 以 
下 两 种 方式 从 根本 上 转变 了 传统 的 问 责 模式 : 

。 消费 者 〈 现 在 被 称 为 “ 云 消费 者 " ) 只 需要 从 软件 供应 商 购买 或 租用 软件 ， 
而 不 是 购买 软件 捆绑 的 物理 硬件 〈 例 如 艇 人 式 系统 或 与 软件 捆绑 在 一 起 的 
HLERA ) 。 

。 客户 〈 现 在 的 云 消费 者 ) 从 IaaS (或 XaaS) 云 服务 提供 商 虚拟 租赁 使 用 计 
算 、 内 存 、 存 储 和 网 络 服务 。IaaS 隐 含 地 包括 了 托管 虚拟 架构 的 物理 数据 
中 心 的 各 个 方面 ， 如 电源 、 接 地 和 环境 控制 。 

因此 ， 无 论 是 应 用 供应 商 还 是 云 消费 者 都 不 能 直接 控制 或 问 责 物理 硬件 架构 ， 尽 管 
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他 们 的 应 用 程序 在 上 面 执 行 。 事 实 上 ， 托 管 应 用 的 物理 架构 可 能 是 由 一 个 或 多 个 云 服务 
供应 商 来 控制 的 ， 供 应 商 是 和 云 消费 者 分 开 和 有 区 别 的 ， 购 买 和 运行 应 用 软件 的 是 云 消 
费 者。 图 11.4 通过 8i +2d 模型 对 云 应 用 的 重要 责任 进行 了 说 明 [ Bauer! ] 。 


a ae ae ae es 云 消费 者 对 自己 的 业务 、 
ree rec i Ae | 以 及 数据 的 正确 性 负责 


OO ee 
Sr we oo 7 aa a gO pa YA NW ra 














操作 策略 





Ce EAN 


ae. T Spee 一” 软件 供应 商 对 其 软件 以 及 软件 与 
| 其 他 元 素 通过 IP 网 络 的 互联 负责 





云 服务 提供 商 对 上 自己 的 数据 中 心 
负责 ， 同 时 还 应 负责 虚拟 化 硬件 
平台 并 保存 云 消费 者 的 数据 











云 消 费 者 负责 安排 受 不 可 抗力 或 
外 部 事件 影响 的 个 人 数据 中 心 托 
管 的 应 用 ， 常 常 是 通过 合适 的 云 
服务 提供 商 


bar a 6 — u ee ee Á 


图 11.4 TaaS 应 用 程序 部 署 的 功能 职责 


云 服 务 提 供 商 负责 物理 硬件 和 支撑 软件 ， 支 撑 软 件 是 支持 虚拟 化 计算 、 内 
存 、 存 储 和 网 络 服务 的 应 用 软件 。 云 服务 提供 商 还 负责 物理 数据 中 心 托 管 
的 硬件 环境 ， 包 括 维持 可 接受 的 温度 〈 即 冷却 ) 、 湿 度 、 物 理 安全 和 其 他 
环境 参数 。 云 服务 提供 商 还 负责 IP 网 络 在 数据 中 心 和 与 最 终 用 户 通信 的 云 
运营 商 互 联 。 云 服务 提供 商 依赖 于 工作 人 员 和 操作 策略 ， 持 续 为 托管 的 应 
用 提供 可 接受 的 服务 质量 。 具 体 来 说 ， 云 服务 提供 商 的 职责 任 包括 ; 

o 持续 提供 高 质量 的 虚拟 化 计算 、 内 存 、 存 储 和 网 络 资源 给 服务 云 消费 者 
的 应 用 ; 

o 提供 服务 协调 机 制 ， 动 态 地 管理 应 用 资源 分 配 / 释 放 的 请 求 ， 接 受 云 服 务 
提供 商 的 策略 ; 这 包括 确定 在 哪里 实例 化 虚拟 机 (例如 在 数据 中 心 内 还 
是 在 数据 中 心 外 ) 和 如 何平 衡 应 用 实例 的 负载 。 

o 加 强 云 消费 者 的 关联 性 和 反 关 联 性 /无 单 点 故障 原则 ; 

o 操作 、 管 理 、 计 费 、 维 护 、 配 置 ， 以 及 所 有 架构 硬件 、 固 件 、 软 件 、 设 
备 和 设施 的 费用 。 

。 应 用 软件 供应 商 的 职责 包括 : 

o 提供 能 够 持续 性 满足 功能 性 和 非 功能 性 需求 的 应 用 软件 ; 

o 为 云 消 费 者 提供 正确 的 安装 、 配 置 和 操作 指导 ; 
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o 提 供应 用 程序 的 资源 和 配置 信息 (初始 安装 以 及 预期 增长 ) 给 云 消费 者 ， 
包括 推荐 的 关联 性 和 反 关 联 性 /无 单 点 故障 原则 ; 
o 提供 应 用 故障 检测 机 制 和 从 程序 错误 、 数 据 完整 性 问题 、 过 程 失 败 、 协 
议 错误 中 恢复 的 机 制 ; 
o 提供 应 用 程序 的 维护 操作 步骤 ， 如 软件 升级 和 灾难 恢复 ; 
© 支持 对 相关 应 用 服务 故障 /中 断 的 原因 分 析 。 
云 消费 者 的 职责 包括 : 
o 定义 业务 需求 、 架 构 和 应 用 方案 设计 ; 
o 选择 应 用 供应 商 和 产品 ; 
o 选择 云 服 务 提供 商 ; 
o 缓解 云 服 务 提 供 商 和 应 用 软件 供应 商 之 间 的 间 际 或 重 琶 ， 降 低 其 风险 ; 
o 确保 应 用 程序 数据 的 正确 性 ; 
o 建立 ， 正 确 执 行 ， 以 及 增强 与 管理 、 维 护 、 应 用 服务 提供 相关 的 操作 
策略 ; 
o 创建 和 维护 灾难 恢复 计划 ， 这 往往 依赖 于 一 个 或 多 个 云 服务 提供 商 所 提 
供 的 服务 。 
与 “收缩 包装 ” (Shrink-wrapped) 技术 组 件 相 比 ， 提 供 “ 即 服务 ”的 技术 组 
件 ， 通 过 平台 即 服务 (PaaS) 供应 商 〈( 如 负载 均衡 即 服务 (LBaaS) 或 数据 库 即 服 
务 ) ， 将 责任 稍微 转移 。 从 PaaS 供应 商 来 的 “技术 组 件 即 服务 ”是 一 个 完整 的 
“收缩 包装 ”技术 组 件 的 操作 实例 ， 由 软件 供应 商 负责 提供 和 管理 。 实 际 上 ， 大 部 
分 或 全 部 的 “客户 程序 错误 ”责任 本 应 由 客户 承担 ， 如 果 使 用 了 “收缩 包 囊 ” 技 
术 组 件 ， 那 么 将 由 “技术 组 件 即 服务 ”的 提供 商 和 支持 者 承担 。 如 果 这 些 服务 由 
技术 组 件 供应 商 提供 支持 ， 这 种 责任 可 能 扩展 到 涵盖 技术 组 件 的 容量 管理 和 发 布 管 
理 。 客 户 应 仔细 协商 与 “技术 组 件 即 服务 ”的 提供 商 的 责任 ， 最 小 化 由 于 没 能 正 
确 理解 PaaS 和 IaaS 服务 提供 商 和 云 消费 者 准确 的 角色 和 职责 而 带 来 的 风险 。 


11.4 问 责 案例 研究 


商业 交流 电力 基础 设施 已 经 非常 成 熟 ， 相 关 标 准 完善 ， 认 定 一 起 与 电力 相关 的 
服务 故障 的 责任 非常 简单 。 以 电 烤 箱 为 例 ， 北 美 住宅 电气 服务 名 义 上 是 120V 交 
流 ， 很 多 家 电 设计 为 能 够 正常 工作 的 交流 电压 范围 从 110V 到 130V。 因 此 ， 如 有 果 面 
包机 不 能 正常 地 烤 面 包 ， 而 厨房 的 交流 电压 在 110V 和 130V 之 间 ， 那 么 可 能 是 烤 
面包 机 故障 。 但 如 果 厨 房 的 交流 电压 是 90V， 那 么 不 能 烤 面 包 的 原因 可 能 是 商业 交 
流 电 服务 问题 、 室 内 布线 或 插座 问题 。 电 力 系 统 花 费 了 很 长 时 间 来 规范 所 有 的 物理 
和 电气 的 期 望 值 和 责任 ， 以 能 够 迅速 分 离 服 务 故障 的 责任 方 : 或 者 是 烤 面 包机 ， 或 
者 是 内 部 布线 (包括 电器 插座 和 家 用 线路 开关 ) 或 者 是 当地 的 电力 公司 。 云 计算 
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系统 将 不 可 避免 地 花费 一 定时 间 ， 在 标准 服务 边界 和 期 望 值 上 达成 一 致 ， 以 能 够 快 
速 而 准确 判定 服务 缺陷 的 责任 。 

考虑 到 在 这 些 案例 中 ， 当 事 人 的 角色 、 职 责 和 不 同 的 问 责 ， 围 绕 它 们 的 应 用 决 
定 其 责任 是 比较 好 的 做 法 。 训 无 疑问 的 是 ， 标 准 机 构 最 终 制定 的 责任 规则 与 例子 可 
能 是 不 同 的 ， 这 里 提供 的 仅仅 是 说 明 性 的 例子 。 本 节 包 括 以 下 情况 : 

© 问 责 和 技术 组 件 (第 11.4.1 节 ); 

。 问 责 和 弹性 〈 第 11.4.2 节 )。 


11.4.1 问 责 和 技术 组 件 


Zz PaaS (平台 即 服 务 ) 提供 商 将 技术 组 件 作为 服务 ， 与 应 用 软件 进行 集成 ， 
然后 交付 给 终端 用 户 ， 如 负载 均衡 锅 、 安 全 设备 和 数据 库 。 幸 运 的 是 ， 标 准 化 质量 
度量 规则 (在 TL_9000 中 有 详细 说 明 ) 使 得 基于 技术 组 件 所 交付 的 主要 功能 ， 可 


以 很 容易 地 为 服务 故障 建立 起 问 责 机 制 。 考 虑 
一 个 由 云 消费 者 操作 的 应 用 服务 器 (可 能 是 一 
个 Web 服务 器 ) 被 配置 成 使 用 云 服 务 提供 商 
的 负载 均衡 器 (BI LBaaS) ， 为 应 用 服务 器 组 ma 
件 的 实例 分 配 负载 ， 如 图 11.5 所 示 。- 应 用 服 





Fae kA ERR (“S1” 和 “S2”) 是 服 图 11.5 应 用 程序 示例 
务 于 客户 应 用 协议 请 求 的 〈 例 如 对 于 一 个 Web 
服务 器 的 HTTP 中 的 GET 和 PUT) ， 负 载 均 衡器 的 主要 功能 (LBaaS) 是 基于 业务 
规则 ， 将 客户 端 请 求 在 应 用 服务 器 组 件 实例 池 中 进行 分 配 的 。 

图 11.6 展示 了 基于 这 种 配置 的 简化 的 服务 中 断 问 责 机 制 。 

© 服务 器 应 用 程序 供应 商 为 其 软件 的 应 用 组 件 实例 (S1, 82) 承担 “基于 产 
品 属 性 ”的 服务 中 断 责 任 。 
LBaaS 服务 提供 商 为 负载 均衡 技术 组 件 承 担 “基于 产品 属性 ”的 服务 中 断 
责任 ， 包 括 负载 均衡 器 软件 应 用 本 身 的 故障 。 负 载 均 衡器 的 软件 供应 商 需 
要 承担 基于 产品 属性 的 服务 (提供 给 LBaaS 服务 提供 商 ) 故障 责任 ， 而 
LBaaS 服务 提供 商 需要 为 负载 均衡 组 件 对 云 消费 者 的 所 有 操作 负责 。 
IaaS 云 服 务 提 供 商 为 交付 的 虚拟 化 计算 资源 、 内 存 、 存 储 和 网 络 服务 〈 包 
括 云 消费 者 的 应 用 软件 和 LBaas 的 负载 均衡 器 虚拟 应 用 ) 负责 。 从 逻辑 上 
讲 ， 这 些 架构 服务 一 般 都 被 打包 为 虚拟 机 ， 可 以 像 传统 的 现场 可 蔡 换 单元 
(Field Replaceable Unit，FRU)S 硬 件 那 样 被 模型 化 。 就 像 传 统 的 FRU 被 期 


© [TL_9000] 中 定义 “现场 可 替换 单元 ”为 “一 个 被 独立 设计 的 部 件 ， 为 了 维持 服务 或 服务 调整 的 目 
的 ， 而 在 使 用 现场 进行 替换 ” 
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一 全 部 服务 停机 问 责 


seeoeeeeeeeeeeeees 


产品 属性 服务 停机 问 责 
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LBaaS 服 务 提供 商 





图 11.6 示例 应 用 程序 的 服务 停机 问 责 


望 有 非 零 的 故障 率 〈 由 早期 生命 故障 〈 早 期 回报 指标 ) 、 工 作 生命 故障 

(年 回报 率 ) 和 长 期 可 靠 性 (长 期 回报 率 ) 计算 而 来 ) 一 样 ， 虚 拟 机 实例 
也 应 该 有 故障 率 指标 。 很 明显 ， 谈 论 故 障 虚 拟 机 实例 的 回报 率 很 思春 ， 因 
为 虚拟 机 的 修复 不 像 修 复 故障 电路 板 一 样 ， 追 踪 管理 虚拟 机 故障 率 是 很 有 
意义 的 。 虚 拟 机 故障 率 在 第 12. 4 节 中 进行 讨论 。 

e 云 消费 者 会 为 由 他 们 配置 的 负载 均衡 策略 (通常 由 负载 均衡 技术 组 件 实现 ) 
承担 责任 。 

通过 考虑 多 个 服务 故障 场景 的 可 能 责任 ， 这 个 示例 问 责 模型 的 意义 才能 体现 

出 来 。 

© 由 服务 实例 SI 或 S2 的 软件 故障 所 导致 的 用 户 服务 中 断 ， 对 于 服务 应 用 商 ， 
是 一 种 产品 属性 服务 中 断 。 

。 虚拟 计算 资源 、 内 存 、 存 储 或 网 络 的 大 量 故 障 而 引起 的 用 户 服务 中 断 ， 可 
能 要 归 因 于 架构 服务 提供 商 。IaaS 提供 商 可 能 会 让 架构 设备 提供 商 为 设备 
的 大 量 故 障 负责 。 

o 假设 LBaaS 对 上 自动 故障 检测 和 故障 转移 负责 ， 那 么 由 于 单个 应 用 服务 实 
例 (例如 S1， 没 有 被 快速 检测 ， 也 没有 通过 将 服务 转移 到 宛 余 服务 实例 
如 S2 而 进行 补救 ) 的 故障 而 引起 的 用 户 服务 中 断 时 间 ， 应 该 可 能 归 因 于 
LBaaS , 

© 负载 均衡 器 的 故障 所 导致 的 用 户 服务 中 断 是 一 种 由 LBaaS 服务 提供 商 引 起 
的 服务 停机 ，LBaaS 服务 提供 商 需 要 为 负载 均衡 虚拟 应 用 软件 供应 商 负责 。 
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e 用 户 服务 中 断 ， 可 以 归咎 于 应 用 服务 器 S1 和 S2 的 故障 ，LBaas 的 中 断 可 能 
归咎 于 云 消费 者 。 

。 由 于 虚拟 机 的 计算 资源 、 内 存 、 存 储 或 是 网 络 (提供 给 高 可 用 应 用 的 ) 的 
故障 ， 所 引起 的 用 户 服务 中 断 ， 是 一 种 很 少见 的 单 点 故障 ， 可 能 归咎 于 应 
用 ， 因 为 高 可 用 应 用 被 希望 能 够 弥补 很 少 发 生 的 单 点 硬件 故障 。 然 而 ， 如 
果 云 消费 者 不 按 供 应 商 所 建议 的 配置 进行 应 用 配置 (如 带 有 充足 的 在 线 元 
余 ) ， 那 么 本 应 由 正确 的 应 用 配置 阻止 发 生 的 故障 发 生 了 ， 就 需要 云 消费 者 
承担 责任 。 


11.4.2 问 责 和 弹性 


正如 在 第 8 章 “ 容 量 管理 ”中 所 讨论 的 ， 当 应 用 所 使 用 的 负载 达到 或 接近 应 
用 的 在 线 容量 时 ， 在 线 应 用 的 弹性 增长 方式 会 有 比 传统 增长 方式 更 多 的 风险 。 在 线 
应 用 容量 的 弹性 增长 是 一 个 复杂 的 过 程 ， 伴 随 着 产生 用 户 服 务 停机 的 风险 。 
图 11.7 中 展示 了 弹性 增长 是 如 何 支撑 图 11.6 的 应 用 示例 。 弹 性 增长 过 程 包括 下 面 
的 逻辑 步骤 : 
“全 部 "服务 停机 问 责 
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.弹性 0SS 通 过 创建 或 销毁 应 用 程序 组 件 
实例 和 配置 负载 均衡 器 实现 弹性 策略 





图 11.7 应 用 程序 弹性 配置 


。 一 些 操作 文 持 系 统 (OSS) 积极 监视 应 用 实例 的 服务 负载 情况 ， 如 测量 服 
务 的 延迟 、 否 吐 量 ( 由 人 负载 均衡 组 件 报告 的 ) 。 

。 当 服 务 延 迟 、 吞 吐 量 或 其 他 应 用 指标 超出 云 消费 者 弹性 策略 定义 的 阔 值 时 ， 
OSS 就 会 弹性 触发 弹性 管理 功能 ， 从 而 激活 适当 的 弹性 增长 操作 。 

。 弹性 管理 功能 (如 弹性 0SS): 
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1) 代表 云 消费 者 的 利益 ， 从 云 服务 提供 商 获 取 额 外 的 资源 ; 
2) 配置 新 资源 并 初始 化 应 用 组 件 (53); 
3) 验证 操作 的 正确 性 和 新 应 用 组 件 S3 的 准备 程度 (有 时 称 为 “ 热 喘 ”期 间 ); 
4) 当 新 应 用 组 件 (S3) 已 经 为 提供 服务 做 好 了 准备 ， 弹 性 管理 功能 会 重新 配 
置 负载 均衡 器 ， 在 它 的 资源 池 中 加 入 新 的 服务 器 3， 以 实现 流量 的 正确 
分 发 。 
。 弹性 管理 功能 需要 负责 对 这 些 步 又 中 的 每 一 步 进 行 故障 检测 并 采用 补救 措 
施 ， 例 如 重 试 失 败 的 请 求 ， 清 理 丢失 或 僵 死 的 资源 。 
由 于 角色 和 快速 弹性 增长 的 相关 责任 还 没有 标准 化 ， 不 能 提供 通用 的 准则 ， 这 
里 为 读者 提供 一 个 故障 场景 列表 ， 当 为 特定 的 应 用 定义 角色 和 责任 时 ， 可 以 参考 。 
弹性 增长 失败 场景 示例 如 下 : 
© 云 消费 者 的 弹性 增长 触发 有 误 ; 
o 性 能 测量 机 制 有 误 〈 例 如 ， 没 有 正确 报告 资源 使 用 情况 ; 
© Iaas 服务 提供 商 不 能 提供 所 请 求 的 资源 ; 
© IaaS 服务 提供 商 返 回 错误 的 资源 (例如 虚拟 本 地 区 域 网 络 ( VLAN) 与 所 
分 配 资源 的 连接 没有 被 正确 配置 ) ; 
。 应 用 没 能 与 所 分 配 的 资源 一 起 被 正确 地 局 动 ; 
。 在 热身 阶段 ， 应 用 组 件 测试 失败 ; 
。 弹性 管理 没 能 正确 地 配置 负载 均衡 器 以 包括 新 的 资源 ; 
。 负载 均衡 希 没 能 正确 地 将 工作 负载 分 配给 新 分 配 的 组 件 〈 例 如 ， 服 务 船 S3 ) 。 
云 消费 者 确保 在 它们 的 应 用 服务 交付 链 中 ， 各 方 的 角色 和 职责 清晰 明确 ， 这 
样 ， 在 不 可 避免 的 服务 故障 发 生 后 ， 可 以 很 快 将 故障 隔离 到 正确 的 责任 方 ， 责 任 一 
方 也 可 以 快速 地 启动 服务 恢复 过 程 。 


11.5 服务 质量 差距 模型 


服务 质量 差距 模型 [Parasuraman | [ Zeithami] 提供 了 一 个 非常 有 用 的 框架 ， 可 
以 积极 地 分 析 服 务 ， 考 虑 服务 质量 如 何 形 成 和 如 何 管理 。 图 11. 8 使 用 服务 质量 差 
距 模 型 来 分 离 服务 消费 者 、 服 务 提供 商 的 视角 ， 并 且 突 出 强调 了 服务 质量 差距 
(在 消费 者 所 期 望 的 服务 与 他 们 所 体验 到 的 服务 ) 会 出 现在 哪里 。 图 11.8 中 展示 
了 潜在 的 服务 质量 差距 如 下 : 
。 差距 1: 客户 期 望 与 (提供 商 ) 管理 感知 水 平 的 差距 。 尤 其 是 服务 提供 商 
集中 在 大 多 数 客户 所 关注 的 关键 质量 指标 (KOI). 
。 差距 2: 提供 商 管理 感知 水 平 与 服务 规范 之 间 的 差距 。KQI 目标 是 否 是 由 提 
供 商 按 客户 的 期 望 来 设 定 的 ? 
。 差距 3: 服务 规范 与 服务 交付 之 间 的 差距 。 提 供 商 的 服务 设计 是 否 能 够 满足 
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过 去 经 验 





提供 商 一 一 
差距 3 | 
eH sens | 
l we 客户 期 望 
ES 
图 11.8 服务 差距 模型 
KQI 的 设计 目标 ? i 
。 差距 4: 服务 交付 与 外 部 沟通 之 间 的 差距 。 服 务 提供 商 就 服务 质量 期 望 已 经 
与 客户 沟通 过 了 么 ? 


。 差距 5: 客户 期 望 与 他 们 的 服务 体验 之 间 的 差距 。 客 户 体验 到 的 服务 能 够 满 
足 他 们 的 期 望 么 ? 这 是 一 个 有 关 感 知 的 关键 差距 ， 能 够 主导 客户 的 服务 质 
量 体 验 。 

所 有 服务 提供 商 的 目标 应 该 是 将 交付 的 服务 质量 控制 在 客户 的 容忍 范围 内 
(如 图 11.9 所 示 ， 即 至 少 客户 所 收 到 的 服务 要 有 希望 超出 用 户 所 期 望 的 ， 尤 其 对 于 
差距 5 更 是 如 此 ) 。 

第 11. 5. 2 节 采 用 服务 差距 模型 对 面向 资源 服务 边界 进行 了 分 析 ， 其 中 云 服 务 
提供 商 是 “提供 者 ”而 云 用 户 是 “消费 者 ”。 

在 第 11. 5. 2 节 采 用 服务 差距 模型 对 应 用 的 面向 用 户 服 务 边界 进行 了 分 析 ， 其 
中 云 消 费 者 是 提供 者 ， 而 最 终 用 户 是 消费 者 。 


11.5.1 应 用 程序 面向 资源 服务 差距 分 析 


云 服务 提供 商 向 云 消费 者 提供 虚拟 化 的 计算 资源 、 内 存 、 存 储 和 网 络 服务 ， 以 
及 可 能 的 技术 组 件 (PaaS) 服务 。 本 节 分 析 在 云 消费 者 和 云 服务 之 间 潜 在 的 服务 
差距 ， 并 通过 图 11. 10 中 进行 了 展示 。 
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容错 区 介 于 客户 的 期 户 ; 
“理想 的 服务 ” 理想 的 服务 
和 
“可 接受 的 服务 ” 
之 间 


客户 所 接受 的 : 
可 接受 的 服务 





关键 质量 指标 


图 11.10 应 用 程序 的 面向 资源 服务 边界 


下 面 分 别 介绍 5 种 差距 : 


1. 差距 1: 客户 的 期 望 与 管理 感知 水 平 的 差距 。 基 于 云 的 应 用 依赖 于 虚拟 化 的 
计算 资源 、 内 存 、 存 储 和 网 络 服务 ， 这 些 资 源 由 云 提供 商 提供 给 执行 软件 的 虚拟 机 
实例 ， 以 满足 消费 者 的 各 种 需求 。 这 样 ， 云 消费 者 和 应 用 提供 商会 对 虚拟 化 架构 
(由 云 服 务 商 提 供 ) 的 最 大 可 容忍 故障 有 所 期 望 。 典 型 缺陷 在 第 4 章 “ 虚 拟 化 架构 
缺陷 ”中 讨论 。 

。 虚拟 机 故障 (第 4.2 节 ); 

© 无 法 交付 的 虚拟 机 配置 容量 (第 4.3 节 ); 

。 交付 退化 的 虚拟 机 容量 (第 4.4 节 ); 

。 尾部 延迟 (第 4.5 节 ); 
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。 时 钟 事件 拌 动 (第 4.6 节 ); 

e HYPE (4.77); 

。 失败 或 缓慢 的 虚拟 机 实例 分 配 和 启动 (第 4.8 节 )。 

2. 差距 2: 管理 感知 水 平 与 服务 规范 之 间 的 差距 。 在 解释 了 什么 是 云 消费 者 最 
敏感 的 架构 故障 之 后 ， 对 于 架构 故障 的 最 大 可 接受 水 平 达成 一 致 认识 非常 重要 ， 这 
会 促使 云 消费 者 向 最 终 用 户 交付 可 接受 的 服务 。 

3. 差距 3: 服务 规范 与 服务 交付 之 间 的 差距 。 云 服务 提供 商 必须 将 设施 、 设 
备 、 架 构 、 过 程 和 程序 合理 调配 ， 使 得 云 消费 者 的 应 用 实例 可 连续 接收 到 满意 的 
服务 。 

4. 差距 4: 服务 交付 与 外 部 沟通 之 间 的 差距 。 云 服务 提供 商 及 时 准确 地 提供 给 
云 消费 者 有 关 服 务 性 能 、 故 障 状态 、 修 复 操作 的 预计 时 间 、 故 障 原因 分 析 和 正确 的 
行动 计划 等 信息 。 云 服务 提供 商 可 能 不 愿意 主动 通知 云 消费 者 发 生 了 服务 故障 ， 但 
是 大 多 数 消费 者 更 希望 由 他 们 的 云 服 务 提供 商 发 出 明确 的 故障 提示 ， 这 样 他 们 可 以 
启动 合适 的 补救 措施 ， 消 除 大 量 的 最 终 用 户 的 报 怨 ， 而 不 是 被 强制 要 求 去 寻找 故障 
的 真正 原因 或 故障 的 范围 。 

5. 差距 5: 消费 者 期 望 与 他 们 的 服务 体验 之 间 的 差距 。 细 心 的 应 用 提供 商 和 云 
消费 者 会 采取 一 系列 机 制 和 措施 来 监测 和 管理 虚拟 化 架构 性 能 (参见 第 14 章 “ 虚 
拟 化 架构 度量 与 管理 ”) ， 以 确保 他 们 能 够 准确 掌握 当前 情况 ， 确 保 云 服务 性 能 与 
消费 者 的 期 望 相当 。 


11.5.2 应 用 程序 面向 用 户 服 务 差距 分 析 


本 节 讨 论 在 云 消费 者 的 应 用 实例 〈 托 管 在 云 服 务 提供 商 的 数据 中 心 ) 与 云 服 
务 提供 商 或 IP 网 络 服务 提供 商 (作为 最 终 用 户 服务 边界 的 代理 ) 之 间 的 逻辑 服务 
边界 。 这 种 简化 模型 使 得 我 们 可 以 聚焦 于 传统 的 应 用 部 署 方式 与 基于 云 的 应 用 部 署 
方式 之 间 的 差异 ， 因 为 我 们 假设 最 终 用 户 的 设备 、 接 入 网 络 和 WAN 是 相同 的 ， 可 
以 不 予 考虑 。 这 个 逻辑 服务 边界 在 图 11. 11 中 进行 了 说 明 。 

对 于 用 户 面 对 的 服务 差异 ， 主 要 有 5 个 ， 分 别 是 : 

1. 差距 1: 客户 的 期 望 与 管理 感知 水 平 之 间 的 差距 。 正 如 在 第 2 章 “ 应 用 程序 
服务 质量 ”中 所 讨论 的 ， 不 同 的 应 用 有 过 然 不 同 的 面向 应 用 的 关键 服务 质量 指标 ， 
但 是 通常 至 少 会 包括 下 面 几 个 中 的 一 个 : 

。 服务 可 用 性 〈 第 2.5.1 节 ); 

e 服务 延迟 ( 42.5.2 7); 
服务 可 靠 性 ( 第 2.5.3 节 ); 

。 服务 可 访问 性 ( 第 2.5.4 节 ); 
。 服务 可 维持 性 ( 第 2.5.5 节 ); 
。 服务 吞吐 量 ( 第 2.5.6 节 ); 
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终端 用 户 作用 客户 $ 云 用 户 作为 提供 商 





应 用 程序 的 面向 用 户 
服务 边界 (MP1) 





图 11.11 应 用 程序 的 面向 用 户 服 务 边界 


© 服务 时 间 稚 精度 〈 第 2.5.7 市 ); 

。 特定 应 用 程序 的 服务 质量 度量 ( 第 2.5.8 节 )。 

2. 差距 2: 管理 感知 水 平 与 服务 规范 之 间 的 差距 。 在 选择 了 一 套 应 用 服务 KQI 
之 后 ， 云 消费 者 会 量化 和 特征 化 最 小 可 接受 的 服务 质量 KQI。 理 想 情 况 下 ， 云 消费 
者 会 根据 目标 KQI 值 来 调整 提高 最 终 用 户 对 服务 质量 的 满意 程度 。 最 佳 的 可 行经 
验 是 对 应 用 服务 KA 做 预算 ， 至少 在 云 消费 者 应 用 部 署 阶段 ,理想 情况 下 是 整个 
端 到 端的 解决 方案 都 要 做 预算 (例如 使 用 第 10. 2 节 “ 三 层 端 到 端 服 务 模型 ”中 的 
三 层 模型 ) 。 例 如 严格 规定 端 到 端 服务 延迟 需求 的 服务 (例如 交互 通信 和 和 游戏) , 
通过 精心 仔细 的 设计 ， 可 以 保证 最 终 用 户 体验 到 的 端 到 端 延迟 缺陷 在 可 接受 程度 
之 内 。 

3. 差距 3; 服务 规范 与 服务 交付 之 间 的 差距 。 云 消费 者 必须 设计 他 们 的 解决 方 
案 来 确保 交付 给 最 终 用 户 的 服务 质量 会 持续 满足 或 超出 最 小 可 接受 KOI 性 能 。 为 
此 ， 云 消费 者 必须 理解 应 用 客户 所 面 对 的 服务 KQI 性 能 与 虚拟 化 的 架构 故障 和 其 
他 用 户 服务 交付 路 径 上 的 故障 (参见 第 10 章 “ 端 到 端 考虑 因素 " ) 之 间 的 敏感 度 。 
在 为 关键 应 用 组 件 设 置 了 KO 缺陷 预算 之 后 ， 云 消费 者 (或 应 用 提供 商 ) 应 该 特 
征 化 底层 虚拟 化 染 构 的 性 能 期 望 目标 。 当 选择 云 服 务 提供 商 时 ， 云 消费 者 会 使 用 这 
些 性 能 目标 。 如 果 选 择 的 云 服务 提供 商 不 能 连续 保持 这 些 性 能 目标 ， 那 么 云 消 费 者 
的 架构 必须 被 修改 ,最 小 化 服务 敏感 度 ( 避免 虚拟 化 基础 设施 的 损失 一 直 处 于 高 
风险 之 中 )。 

4. 差距 4: 服务 交付 与 外 部 沟通 之 间 的 差距 。 云 消费 者 应 该 与 最 终 用 户 就 所 期 
望 的 服务 质量 公开 进行 交流 。 

5. 差距 5: 客户 期 望 与 他 们 所 体验 到 的 服务 之 间 的 差异 。 分 布 式 应 用 会 伴 有 这 
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类 差 跑 ， 因 为 应 用 服务 通常 是 提供 给 一 个 最 终 用 户 所 有 并 使 用 的 设备 上 (如 智能 
手机 、 平 板 电脑 、 笔 记 本 电脑 和 游戏 终端 ) ， 服 务 是 通过 一 个 由 用 户 选 择 的 接 入 网 
络 来 提供 的 。 最 终 用 户 设备 与 指定 的 接 人 网 络 之 间 的 差异 可 能 影响 最 终 用 户 体 验 的 
服务 质量 。 例 如 ， 通 过 一 台 笔 记 本 电脑 (通过 以 太 网 连接 到 用 户 的 宽带 调制 解 调 
ar) 提供 的 应 用 服务 要 比 一 台 智 能 手机 〈 当 最 终 用 户 正 乘坐 公交 车 或 火车 ， 通 过 
商业 无 线 网 络 ) 要 好 。 幸 运 的 是 ， 最 终 用 户 非常 重视 无 线 数据 服务 的 差异 (例如 
盲区 以 及 用 网 拥挤 区 域 对 有 限 带宽 的 争 用 ) ， 他 们 更 可 能 会 将 至 少 他 们 的 一 些 可 观 
察 到 的 服务 缺陷 归咎 于 无 线 访问 提供 商 或 他 们 自己 的 操作 〈 例 如 走 进 一 个 无 线 信 
45 7 ma (RZ AY SIA) ) 。 


11.6 服务 水 平 协议 


“保证 满意 或 退 钱 ”是 受 人 推崇 的 零售 商事 实 上 的 SLA。 这 个 简单 的 规则 适用 
于 商业 现货 类 产品 (Commercial off the shelf, COTS), AT Lm SARA “LR 
不 买 ”决定 的 风险 。 但 用 户 化 的 产品 ， 如 信息 系统 ， 一 般 不 适 于 这 样 一 个 简单 的 
买 或 不 买 的 二 元 决定 策略 ， 对 于 消费 者 或 供应 商 均 是 如 此 ， 因 为 “不 买 ”决定 将 
使 消费 者 没有 信息 系统 可 用 ， 也 会 让 供应 商 没 有 一 点 收入 。 清 晰 明确 的 SLA 让 消 
费 者 和 供应 商 针 对 会 有 什么 样 的 服务 质量 预期 ， 以 及 出 现 服务 质量 问题 如 何 处 理 ， 
提前 达成 协议 ， 因 此 一 个 二 元 “ 买 或 不 买 ”决定 可 以 被 避免 。 

有 效 的 SLA 会 通过 以 下 几 点 帮助 供应 商 和 消费 者 达成 他 们 的 业务 目标 : 

1) 定义 服务 的 规模 和 性 能 预期 ; 

2) 明确 定义 供应 商 和 消费 者 的 期 望 和 责任 ; 

3) 和 如果 预 期 没有 达到 ， 例如 定义 补救 措施 ， 如 对 服务 进行 恢复 或 提前 中 止 
合同 ; 

4) 采用 边界 责任 机 制 ， 这 样 消 费 者 和 供应 商都 会 很 好 地 管理 他 们 的 业务 
风险 。 

所 达成 的 协议 应 该 满足 供应 商 和 消费 者 的 服务 质量 要 求 以 及 业务 的 需要 。 如 果 
协议 太 严 重地 偏 祖 一 方 ， 那 么 他 们 的 业务 可 能 失败 或 者 他 们 可 能 会 由 于 业务 原因 而 
违约 ， 这 会 将 交易 双方 推 人 混乱 的 境地 。 正 如 “好 的 栅栏 创造 好 的 邻居 ”一 样 ， 
供应 商 与 消费 者 之 间 设 计 优 良 的 SLA 可 以 带 来 更 多 的 满意 ， 因 为 

© 可 测量 和 可 定量 分 析 的 关键 服务 质量 指标 被 积极 定义 ; 

e 对 KQI 测 量 和 报告 的 安排 提前 达成 一 致 ; 

e 对 KQI 服务 故障 的 问 责 前 期 有 明确 说 明 ; 

。 为 满足 KQI 目标 ， 对 故障 的 修复 事先 达成 一 致意 见 ， 例 如 如 果 一 个 或 多 个 

故障 导致 无 法 持续 ; 

© 提供 约定 的 服务 水 平 ， 那 么 对 服务 进行 恢复 的 期 望 和 问 责 要 有 非常 明确 的 


约定 。 
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单个 SLA 约定 应 该 包括 : 

。 定义 一 个 可 量化 的 服务 指标 ,例如 采用 第 4 章 “ 虚 拟 化 架构 缺陷 ”或 第 
2.5 节 “ 应 用 程序 服务 质量 指标 ” 提 及 的 一 个 或 多 个 服务 度量 方法 ; 

。 和 定量 的 服务 性 能 目标 或 对 象 ， 例 如 每 百 万 中 小 于 50 个 失败 呼叫 请 求 或 每 月 
小 于 一 个 由 供应 商 引 起 的 严重 故障 ; 

。 明确 的 度量 责任 和 排除 规则 ， 例 如 谁 对 度量 性 能 负责 ， 以 及 故障 如 何 被 归 


一 化 ; 


© 修复 故障 以 满足 服务 性 能 目标 ， 例 如 30 天 内 提供 一 个 书面 的 根本 原因 分 析 


报告 ， 


客户 选择 尽早 终止 合同 。 


SLA 通常 会 有 以 下 几 个 生命 周期 阶段 : 


e 提供 : 
© 发 现 : 
© 选择 : 
。 协商 : 
e Ace: 
e 使 用 : 
e 终止 : 


传统 上 ， 


服务 提供 商 决定 服务 性 能 目标 ， 并 确保 能 够 提供 给 消费 者 ; 

消费 者 对 由 各 个 提供 商 提供 的 服务 水 平 进行 了 解 ; 

消费 者 选择 由 哪个 特定 提供 商 提 供 所 需 服 务 ; 

服务 提供 商 与 消费 者 就 指定 的 服务 项 目 达成 一 致 ; 

由 服务 提供 商 对 消费 者 的 服务 进行 配置 并 启动 ; 

消费 者 在 约定 的 时 间 内 使 用 服务 ; 

最 终 ， 约 定 的 服务 时 间 结 束 或 者 协议 被 中 止 。 

这 一 生命 周期 会 由 人 来 执行 ,每 隔 几 周 、 几 个 月 或 几 年 就 执行 一 次 。 


由 于 云 系 统 的 成 熟 ， 以 及 服务 度量 、 条 款 和 条 件 都 被 标准 化 了 ， 服 务 水 平 管理 可 能 


会 更 自动 化 。 


请 记 住 ，SLA 的 业务 机 制 旨 在 降低 风险 ; 它们 没有 质量 控制 机 制 ， 只 有 质量 控 
制 机 制 才能 从 根本 上 提高 实现 所 承诺 的 服务 水 平 的 可 能 性 和 可 行 性 。SLA 不 能 替代 
在 选择 提供 商 之 前 ， 进 行 认真 仔细 的 考虑 。 这 在 成 本 上 可 能 会 有 所 扩大 ， 但 如 果 所 
选择 的 供应 商 证 明 不 能 持续 提供 可 接受 的 服务 质量 ， 不 得 不 改变 供应 商 ， 这 种 代价 


就 更 为 巨大 。 


云 服 务 SLA 已 经 成 为 标准 化 组 织 、 学 术 研 究 、 贸 易 出 版 的 一 个 热门 主题 ， 读 
者 可 以 参考 这 些 经 验 和 智慧 (例如 [ODCA_SUoM]， [ODCA_ClaaS], [TMF_ 


TR197 | ) 。 
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设计 良好 的 服务 度量 技术 可 以 从 一 代 发 展 到 另 一 代 。 网 络 应 用 的 服务 可 用 性 是 
一 个 严格 的 服务 度量 标准 ， 已 经 从 传统 部 署 方式 发 展 到 云 计算 方式 。 本 章 列 出 了 服 
务 可 用 性 度量 发 展 过 程 如 下 : 
。 服务 度量 概述 (第 12. 1 节 ) : 介绍 了 设计 良好 的 服务 度量 在 重大 技术 上 的 
变革 。 
。 传统 服务 可 用 性 度量 (第 12. 2 节 ) : 电信 行业 的 TL 9000“SO” 服 务 中 断 
度量 标准 作为 传统 服务 可 用 性 度量 的 一 个 例子 。 其 他 行业 的 服务 可 用 性 度 
量 可 能 是 类 似 于 电信 行业 的 服务 可 用 性 度量 ， 虽 然 也 许 不 会 那么 严格 。 
。 服务 可 用 性 度量 演化 (第 12.3 节 ) : 提供 了 一 个 简单 、 集 约 的 传统 服务 可 
用 性 度量 (第 12. 2 节 中 一 个 基于 云 的 应 用 程序 示例 ) 的 改进 。 
。 硬件 可 靠 性 度量 演化 〈 第 12. 4 节 ) : 由 于 硬件 故障 可 以 直接 影响 用 户 服务 ， 
企业 对 于 传统 上 会 采取 严格 的 度量 和 管理 手段 应 对 硬件 故障 。 本 节 描 述 传 
统 硬件 可 靠 性 度量 ， 以 及 如 何 将 其 发 展 应 用 于 虚拟 机 实例 。 
。 弹性 服务 可 用 性 度量 演化 (第 12. 5 W): 传统 应 用 支持 手动 容量 增长 和 逆 
增长 过 程 。 本 节 详细 介绍 了 服务 可 用 性 度量 的 传统 增长 和 逆 增 长 过 程 ， 以 
及 基于 云 应 用 的 弹性 容量 管理 。 
。 发布 管理 服务 可 用 性 度量 演化 (第 12.6 节 ) :传统 应 用 程序 支持 传统 的 软 
件 升级 过 程 。 本 节 介绍 传统 软件 升级 过 程 的 服务 可 用 性 度量 ， 以 及 基于 去 
应 用 的 软件 升级 服务 可 用 性 度量 。 
© 服务 度量 展望 (第 12.7 节 ) : 本 节 评 估 了 基于 云 应 用 的 服务 度量 相 比 传统 
服务 度量 更 为 广阔 的 发 展 前 景 。 


12.1 服务 度量 概述 


明确 定义 的 服务 度量 往往 独立 于 技术 ， 因 此 可 以 让 供应 商 、 客 户 和 最 终 用 户 更 
多 地 关注 实际 技术 的 性 能 以 及 供应 商 的 选择 。 最 终 用 户 、 客 户 和 供应 商 通常 是 选择 
应 用 现 有 的 最 好 的 服务 度量 ， 而 不 需要 发 明 蔡 代 现 有 的 服务 度量 ， 甚 至 根本 不 用 对 
服务 度量 太 过 操心 。 类 似 的 例子 如 旅客 运输 : 旅行 时 间 和 相关 计划 是 服务 质量 的 关 
键 指标 。 旅 行 时 间 和 计划 显然 并 不 只 适用 于 航空 旅行 ， 而 且 还 适用 于 铁路 、 城 际 公 
共 交 通 出 行 。 旅 行 时 间 和 计划 当然 不 是 新 提出 的 ， 可 以 想象 得 到 ， 以 前 轮船 和 马车 
的 乘客 关心 的 这 两 个 服务 质量 和 现在 的 旅行 者 一 样 的 。 
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随 着 技术 的 进步 ， 人 们 经 常 要 改进 服务 度量 细节 以 使 其 更 精确 ， 但 基本 的 服务 
度量 理念 是 不 变 的 。 例 如 ， 火 车 、 汽 车 、 轮 船 、 飞 机 和 马车 的 “出 发 时 间 ” 和 
“到 达 时 间 ” 就 很 明显 。 飞 机 旅行 意味 着 “出 发 ”和 和“ 到达” 这些 传统 通用 的 感 
官 概念 变 得 模糊 。 上 有 具体 地 说 ， 飞 机 “出 发 ”可 能 适用 于 以 下 任何 一 个 事件 : 

a. 当 登 机 口 关闭 ; 

b， 当 飞机 舱 门 关闭 ; 

c.， 当 飞机 从 登 机 口 推出 ; 

d. 当 飞 机 升 空 ( 即 所 有 车 轮 离开 地 面 ); 

e 当 飞 机 已 成 功 收 起 起 落架 。 

由 于 这 些 事件 之 间 也 就 几 分 钟 时 间 (飞机 飞行 时 间 通 常 以 小 时 和 分 钟 计算 ) ， 
所 以 最 好 的 方法 是 旅客 、 航 空 公司 和 业界 统一 定义 哪些 事件 是 “起 飞 时 间 ”,，“ 到 
达 时 间 ” 和 “飞行 时 间 ”， 这 样 各 方 可 以 公平 比较 服务 性 能 在 不 同 的 航空 公司 和 飞 
行 线路 差别 。 通 过 标准 化 这 些 度量 信息 ， 终 端 用 户 可 以 很 容易 地 比较 不 同 航空 公司 
的 性 能 。 此 外 ， 旅 客 也 可 以 根据 旅行 时 间 和 旅途 安排 对 选用 飞机 出 行 还 是 火车 出 行 
有 明智 的 决定 。 

需要 注意 的 是 ， 服 务 度量 (如 旅行 时 间 和 相关 计划 ) 不 同 于 服务 的 期 望 ， 期 
望 可 以 从 一 种 技术 转移 到 另 一 种 技术 。 就 拿 航 空 旅行 和 铁路 出 行 相 比较 : 长 途 旅行 
者 更 愿意 接受 飞行 时 间 短 的 航空 旅行 ， 虽 然 航 空 旅行 对 天 气 条 件 要 求 比 较 严 格 ， 存 
在 一 定 风 险 。 然 而 ， 短 途 旅 行者 、 商 务 旅行 者 则 更 喜欢 城 际 铁路 旅行 ， 因 为 旅途 中 
可 以 有 极 好 的 时 间 安 排 。 同 样 ， 绝 大 多 数 最 终 用 户 接受 无 线 电 话 低 的 声音 质量 ， 把 
它 当 作 是 移动 性 的 代价 ， 而 有 线 数字 电视 和 IP-TV 更 长 的 电视 频道 切换 时 间 (与 模 
拟 有 线 电 视 相 比 ) 则 是 有 更 多 的 频道 可 以 选择 而 付出 的 代价 。 因 此 ， 如 果 一 个 基 
于 云 的 应 用 带 来 的 实际 好 处 ( 如 给 用 户 提 供 免 费 服 务 ) 超越 了 传统 部 看 ， 那 么 用 
户 则 可 以 接受 较 低 的 服务 质量 ， 否 则 用 户 通 常会 希望 基于 云 的 应 用 的 服务 质量 性 能 
必须 至 少 等 效 于 本 地 服务 质量 性 能 。 


12.2 传统 服务 可 用 性 度量 


“服务 影响 停机 时 间 ” 度 量 方法 〈[TL_9000] S02 Fi S04), 在 电信 业 的 使 用 
比 其 他 行业 更 严格 的 ， 同 样 的 度量 准则 有 可 能 应 用 于 数 不 清 的 应 用 的 服务 可 用 性 ， 
包括 所 有 企业 、 组 织 ， 因 此 可 以 作为 非常 有 用 的 分 析 示 例 。 虽 然 一 些 企业 会 使 用 用 
户 的 实际 数量 ( 如 度量 故障 事件 为 “1234min 用 户 服务 影响 ”或 “影响 5678 个 用 
户 会 话 ) ， 这 些 绝对 指标 使 它 更 难 把 握 服 务 影响 的 上 下 文 。 例 如 ，1234min 用 户 服 
务 影响 在 1 个 月 度量 周期 的 表现 是 出 色 还 是 灾难 性 的 ? 由 于 许多 企业 会 部 署 特 定 应 
用 的 多 个 实例 ， 而 每 个 实例 又 服务 多 个 用 户 ， 一 个 规范 化 的 服务 可 用 性 度量 应 能 够 
更 好 地 描述 总 体 服 务 所 受 的 影响 。 通 常情 况 下 ， 服 务 可 用 性 会 按 每 年 每 个 实例 进行 
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规 一 化 ， 部 分 容量 损失 会 按 比例 分 挫 。 例 如 ，“5 个 9” 服 务 可 用 性 意味 着 每 个 系 
统 每 一 年 按 比 例 分 配 的 用 户 服务 受 影响 的 停机 时 间 为 5. 26min。 
图 12.1 给 出 了 一 个 简化 的 应 用 操作 时 间 表 的 三 个 阶段 : 


= iih 


容量 增长 操作 





在 应 用 程序 进入 稳 对 某 些 应 用 程序 的 
定 操作 阶段 之 前 出 容量 改变 操作 可 能 
现 的 问题 不 能 被 视 会 需要 “计划 停机 
为 停机 时 间 所 需要 的 系统 设计 ” 


图 12.1 传统 服务 操作 时 间 表 


1) 服务 中 断 度量 只 适用 于 在 应 用 程序 已 进入 稳定 运行 之 后 。 故 障 导致 的 应 用 
实例 无 法 为 最 终 用 户 进行 初始 安装 、 启 动 并 提供 可 接受 的 服务 ， 通 常 被 认为 是 安装 
问题 ， 而 不 是 归 因 于 服务 中 断 度量 。 | 

2) 服务 中 断 度量 适用 于 正常 运行 中 〈 即 运行 稳定 ) 。 

3) 随 着 时 间 的 变化 ， 在 线 容量 ， 配 置 和 软件 的 版 本 都 会 发 生 改 变 。 这 个 改变 
可 以 在 应 用 实例 脱 机 (例如 作为 “计划 内 的 停机 时 间 ” 用 于 维护 ) 或 在 应 用 实例 
处 于 联机 状态 下 完成 。 如 果 这 个 事件 发 生 在 应 用 实例 服务 于 用 户 的 联机 时 间 ， 那 么 
维护 操作 过 程 中 任何 对 用 户 服 务 的 影响 都 可 能 潜在 地 导致 停机 。 

在 稳定 运行 阶段 服务 的 可 用 性 度量 在 第 12. 3 节 进 行 阐述 ， 在 容量 管理 事件 发 
生 期 间 的 可 用 性 度量 在 12.5 节 中 阐述 。 发 布 管理 事件 主要 包括 执行 例 行 补 丁 、 更 
新 、 升 级 或 改造 应 用 软件 或 底层 客户 操作 系统 。 发 布 管理 事件 的 服务 可 用 性 度量 在 
第 12.6 节 讨论 。 


12.3 服务 可 用 性 度量 演化 


图 12. 2 所 示 为 一 个 部 署 在 云 中 的 应 用 实例 ， 它 根据 业务 规则 执行 应 用 逻辑 模 
块 ， 将 企业 数据 发 送 给 最 终 用 户 。 该 应 用 包括 应 用 逻辑 组 件 池 中 一 对 用 于 分 发 用 户 
负载 的 负载 均衡 组 件 和 由 一 对 数据 库 服 务 器 支持 的 应 用 逻辑 组 件 。 负 载 均 衡 组 件 由 
一 对 安全 设备 保护 ， 所 有 的 软件 组 件 都 托管 在 虚拟 机 实例 中 ， 虚 拟 机 实例 由 架构 提 
供 商 提供 。 
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1. 应 用 程序 和 服务 建立 在 
标准 的 “功能 块 ” (例如 
负载 均衡 器 ) 和 特定 应 用 








程序 组 件 之 上 ， 并 在 虚拟 





机 实例 中 运行 应 用 程序 
| ET ae Lie 程序 | 
终端 A 和 广域网 络 ar [Te] “SM f] maa f 





AP L 






2. 架 构 即 服务 提供 商 
托管 虚拟 主机 实例 ， 

以 供 软 件 组 件 使 用 而 
非 本 地 FRU (现场 可 
更 换 部 件 ) 


图 12.2 云 应 用 程序 部 署 示例 


对 于 图 12. 2 的 示例 应 用 ， 传 统 的 服务 可 用 性 度量 的 第 一 步 是 定义 “应 用 实 
例 ” 的 边界 ， 而 应 用 服务 的 可 用 性 度量 需要 覆盖 到 这 个 边界 。TL 9000 中 通过 典型 
的 网 络 元 素 或 系统 ， 对 服务 中 断 度量 进行 归 一 化 ， 其 定义 为 
。 网 络 元 素 :“ 系 统 设 备 ， 实 体 或 节点 ， 包 括 所 有 相关 的 硬件 和 /或 分 布 在 某 
个 位 置 上 的 软件 组 件 。 网 络 元 素 必 须 包 括 能 够 实现 该 类 产品 主要 功能 的 所 
有 组 件 。 如 果 需 要 多 个 FRU， 设 备 和 /或 软件 组 件 需 要 为 网 络 元 素 提供 该 类 
产品 的 主要 功能 。 所 有 这 些 单一 组 件 不 可 以 被 认为 自己 就 是 一 个 网 络 元 素 。 
所 有 这 些 组 件 的 总 合 被 认为 是 一 个 单一 的 网 络 元 素 【TL_9000]。 
。 系统 :“ 硬 件 和 /或 软件 的 集合 ， 被 分 配 到 一 个 或 多 个 物理 位 置 ， 所 包含 的 
所 有 项 目 都 需要 适当 的 操作 ， 没 有 单一 项 目 能 够 独立 运作 ” [TL 9000] 。 
由 于 保护 应 用 免 受 非法 流量 ，DDos 攻击 和 其 他 外 部 安全 威胁 ， 并 不 是 应 用 的 
主要 功能 ， 所 以 一 个 单独 的 安全 设备 被 添加 进来 以 保护 应 用 不 受 外 部 攻击 。 安 全 设 
备 是 独立 于 应 用 本 身 的， 部 署 在 应 用 边界 的 外 面 ， 如 图 12. 3 所 示 。 这 样 ， 应 用 的 
服务 可 用 性 应 该 度量 提交 给 最 终 用 户 (在 应 用 逻辑 的 边缘 ) 的 性 能 。 在 这 种 情况 
下 ， 应 用 实例 的 面向 用 户 服务 边界 不 在 负载 均衡 器 组 件 的 前 面 ， 而 是 在 安全 设备 之 
后 ， 如 图 12. 4 所 示 。 安 全 设备 保护 应 用 的 服务 可 用 性 和 质量 效果 应 该 被 度量 ， 但 
这 些 度 量 应 该 是 对 安全 设备 本 身 ， 而 不 应 被 汇总 到 对 受 保护 的 应 用 实例 的 服务 度 
量 里 。 


12.3.1 应 用 演化 分 析 
可 靠 性 框图 (Reliability Block Diagram, RBD) 是 一 个 用 来 分 析 理 解 应 用 程序 
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这 是 “系统 ”或 
“网 络 之 类 ” 


系统 的 功能 性 定义 
取决 了 包含 或 不 包 
含 哪些 功能 块 










图 12.3 应 用 程序 的 “网 络 元 素 ” 边 界 


应 用 程序 用 户 
服务 可 用 性 的 
逻辑 测量 点 





图 12.4 应 用 程序 可 用 性 的 服务 测量 点 


服务 可 用 性 风险 和 行为 的 可 视 化 图 表 。 图 12. 5 给 出 了 图 12. 2 所 示 的 示例 应 用 被 部 
署 到 传统 硬件 架构 的 RBD。 每 个 应 用 组 件 实例 所 如 前 端 负载 均衡 器 ， 应 用 逻辑 ， 
数据 库 管 理 系统 ) 被 部 署 到 一 个 单独 的 计算 刀片 或 机 架 式 服务 大 中， 所 有 刀片 和 
服务 器 是 安装 在 机 柜 或 机 架 中 ,通过 全 互联， 连同 一 起 的 还 有 供电 系统 、 冷 却 系 
统 (一 起 被 标记 为 “通用 机 架 模 块 ) 。 

seta inde 应 用 程序 逻辑 数据 库 管理 系统 





图 12.5 示例 应 用 程序 的 可 靠 性 框图 (传统 部 轩 ) 


图 12. 6 展示 了 图 12.5 的 RBD 如 何 映射 到 云 : 
© 托管 应 用 组 件 实例 的 每 个 计算 刀片 或 机 架 被 虚拟 机 实例 所 替换 。 
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pe hin isi) SR 








Internet 


.图 12.6 示例 应 用 程序 演化 到 云 上 


。 其 中 每 个 虚拟 机 实例 之 间 的 他 连通 性 是 由 架构 作为 一 种 服务 来 提供 的 ， 可 
以 被 视 为 一 个 叫 作 飞 连接 即 服务 ”的 逻辑 元 素 。 
如 图 12.7 所 示 ， 图 12.5 的 示例 应 用 的 RBD 无 法 将 传统 的 机 柜 或 机 架 式 以 太 
网 交换 架构 替换 为 虚拟 机 实例 之 间 的 “连接 即 服 务 ”， 也 不 能 替换 机 架 电 源 分 配 和 
云 冷却 架构 。 


前 端 负载 均衡 器 应 用 程序 逻辑 sath ot 


BS 





包含 应 用 程序 VM |  '-----------' NB teessa A 
实例 间 的 IP 网 络 以 
及 机 箱 电源 和 冷却 
系统 













每 个 应 用 程序 块 包含 
VM 实例 


图 12.7 云 上 的 示例 应 用 程序 可 靠 性 框图 


图 12. 8 显示 了 传统 和 云 部 署 模式 下 的 示例 应 用 RBD。 
正如 在 11 章 “服务 质量 问 责 ”中 所 解释 的 那样 ， 云 部 署 的 复杂 职责 和 潜在 损 
害 ， 归 因 于 云 消费 者 〈 客 户 ) ， 应 用 软件 供应 商 或 XaaS 云 服务 提供 商 的 服务 缺陷 。 
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Wi 应 用 程序 逻辑 et 


和 客户 OS 运行 在 VM 


实例 上 而 非 传统 的 硬 





图 12.8 对照 可 靠 性 框图 


图 12. 9 给 出 了 一 个 部 署 在 云 病 的 示例 应 用 ， 可 以 明确 连接 本 章 讨论 的 度量 和 第 11 
章 讨论 的 问 责 。 图 12. 9 虚线 框 的 显示 了 示例 应 用 的 逻辑 边界 ， 传 统 上 ， 这 是 机 柜 
(托管 所 有 的 应 用 刀片 ) 的 服务 范围 。 与 传统 的 系统 架构 相 比 ， 该 边界 包含 一 套 应 
用 程序 组 件 (如 ， 负 载 均 衡器 ， 应 用 程序 逻辑 模块 和 数据 库 服务 器 组 件 ) ， 每 个 组 
件 实 例 在 不 同 的 虚拟 机 上 执行 。 所 有 这 些 虚 拟 机 实例 通过 一 个 逻辑 上 的 “连接 即 








IaaS 提 供 的 虚拟 机 实例 故 
a 同 传统 的 FRU 硬 件 
















应 用 程序 实例 边界 ex laas 提 供 运行 着 应 
oi 用 程序 软件 组 件 的 
e| VM 实 例 之 间 的 IP 连 
架构 即 服务 的 °| 接 ， 如 同 传统 的 机 
问 责 范围 = E 箱 级 别 的 以 太 交 换 

° | 


wm mm em wm wm pe TT -— =e ee - eee ee 





laas 同时 提供 访问 WAN， 电 源 系统 冷 
却 系 统 以 及 云 数据 中 心 物理 架构 的 IP 
连接 ， 这 些 实际 上 已 经 超出 了 应 用 程 
序 网 络 元 素 的 边界 范围 







图 12.9 基于 云 的 应 用 程序 示例 问 责 
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服务 ”的 方式 建立 连接 (模拟 人 架构， 传统 上 连接 刀片 或 机 架 式 服务 器 与 一 个 传 
统 的 应 用 实例 ) 。 应 用 实例 物理 上 存在 于 一 个 laas 数据 中 心中 。 
图 12.9 中 的 虚线 框 表 示 了 在 示例 应 用 程序 的 上 下 文中 ，laas 供应 商 的 责任 
边界 : 
o 托管 应 用 程序 组 件 实例 的 虚拟 机 实例 。 这 些 虚拟 机 实例 托管 应 用 软件 和 客 
户 操作 系统 的 所 有 应 用 程序 组 件 。 不 可 避免 的 是 ， 这 些 虚拟 机 实例 偶尔 会 
遇 到 故障 (如 ， 虚 拟 机 可 靠 性 缺陷 ， 见 第 12. 4 节 ) 。 硬 件 供 应 商 需 要 去 分 
析 他 们 的 设备 ， 以 确定 故障 的 真正 根源 ， 并 部 署 适当 的 纠正 措施 ， 不 断 提 
高 他 们 的 硬件 产品 的 可 靠 性 。 高 品质 的 laas 提供 商 应 该 确保 虚拟 机 的 故障 
被 进行 适当 分 析 ， 以 及 纠正 措施 被 部 署 到 虚拟 机 实例 ， 以 提高 虚拟 机 实例 
的 可 靠 性 。 
。“ 连 接 即 服务 ”为 虚拟 机 托管 的 应 用 组 件 实例 提供 了 P 连接 。 这 模拟 了 传 
统 上 的 IP 交换 设备 〈 传 统 上 的 机 柜 或 机 架 ， 使 应 用 程序 组 件 之 间 可 以 高 可 
靠 、 高 可 用 、 低 延迟 地 通信 ) 。 正 如 设计 传统 的 工程 应 用 配置 一 样 ， 以 最 小 
的 IP 交换 设备 和 设施 来 最 大 化 提高 应 用 的 性 能 和 质量 ，IaaSs 提供 商 采 用 关 
联 性 规则 和 智能 资源 配置 逻辑 ， 来 确保 所 有 应 用 的 虚拟 机 实例 和 资源 在 物 
理 上 接近 且 又 不 违反 相关 的 反 关 联 性 规则 。 连 接 即 服务 会 捕获 应 用 在 虚拟 
机 实例 之 间 的 IP 连接 逻辑 抽象 。 如 图 12. 10 所 示 ， 连 接 即 服务 ， 也 可 看 作 
是 一 个 逻辑 上 由 Iaas 提供 的 纳米 级 VPN 连接 ， 连 接 了 在 虚拟 专用 网 络 上 的 
每 一 个 虚拟 机 应 用 实例 ， 根 本 不 用 去 关心 每 个 虚拟 机 实例 的 实际 放置 位 置 。 


“在 第 一 个 逻辑 点 区 分 连接 、 

” 即 服 务 的 目标 应 用 程序 能 ， 
够 温 辑 连接 到 另 一 个 应 用 
程序 实例 — 


”逻辑 VNIC 到 
eeeeseeeeeese VSWITCH 管 理 程序 连接 


12.10 ”连接 即 服务 作为 纳米 级 别 的 VPN 


。 逻辑 上 的 “数据 中 心 即 服务 ， 提 供 了 一 个 安全 的 环境 受 控 的 物理 空间 , 来 
承载 托管 应 用 的 虚拟 机 实例 、 主 机 的 虚拟 机 服务 器 ， 并 提供 电力 、 冷 却 和 


Ss 上 zen 3a $ a% ee ss 
are E EA E - ES me oe 
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广 域 P 连接 。 通 常 ， 对 数据 中 心 即 服务 的 可 用 性 预期 的 设 定 是 基于 正常 运 
行 时 间 ， 分 为 四 层 : 第 一 ， 基 础 层 ; Bo, TRAP; 第 三 ， 并 发 维护 
层 ; 第 四 、 容 错 层 。 数 据 中 心 即 服务 的 服务 中 断 通 常 被 排除 在 传统 应 用 服 
务 的 可 用 性 评估 和 度量 之 外 ， 由 此 往往 也 会 被 排除 在 云 部 署 的 服务 可 用 性 
估计 和 度量 之 外 。 从 逻辑 上 讲 ， 连 接 即 服务 支持 在 应 用 实例 边界 范围 内 的 
IP 通信 ， 而 数据 中 心 即 服 务 提供 了 应 用 实例 边界 到 区 分 点 (IaaS 服务 提供 
商 与 去 运营 商 之 间 ) 之 间 的 全 通 信 ， 包 括 服务 交付 路 径 上 到 任何 其 他 应 用 
实例 的 连接 ( 如 图 12.2 中 的 安全 设备 与 应 用 的 负载 均衡 右 组 件 的 连接 )。 


12.3.2 技术 组 件 


平台 即 服务 提供 了 一 些 应 用 可 以 使 用 的 技术 组 件 或 功能 模块 : 

。 缩短 产品 上 市 时 间 ， 因 为 已 经 具备 ; 

。 提高 质量 , 估 为 应 该 是 成 熟 和 稳定 的 ; 

© 简化 操作 ， 因 为 PaaS 提供 商会 处 理 技术 组 件 的 运营 和 维护 。 

负载 均衡 和 数据 库 管 理 系统 都 是 提供 “ 即 服务 ”的 技术 组 件 。 让 我 们 考虑 数 
据 库 即 服务 (DBaaS) 在 图 12.2 示例 应 用 中 的 情况 。 在 结构 上 ， 如 图 12. 5 所 示 的 
应 用 的 两 个 活动 的 数据 库 系 统管 理 组 件 可 以 用 一 个 黑 盒 替代 ， 该 黑 盒 表示 图 12. 11 
所 示 的 “数据 库 即 服务 ”。 这 种 黑 盒 抽象 是 合理 的 ， 因 为 该 DBaaS 提供 商 明 确 地 隐 
藏 了 所 有 从 云 消费 者 到 应 用 供应 商 的 所 有 结构 上 、 实 现 上 和 操作 上 的 细节 ， 所 以 
DBaaS 是 一 个 不 透明 的 盒子 或 是 黑 盒 。 

man SE 应 用 程序 逻辑 数据 库 管 理 系统 


ee ee ee ee ee me me mm l- 





Al 12. 11 具有 数据 库 即 服务 的 应 用 程序 示例 


技术 组 件 (如 “数据 库 即 服务 ”") 会 明确 定义 提供 给 应 用 的 功能 ， 从 概念 上 很 
容易 知道 该 功能 对 应 用 是 否 是 可 用 的 。 有 了 合适 的 应 用 和 组 件 ， 可 以 通过 服务 探 针 
或 其 他 机 制度 量 技术 组 件 的 停机 时 间 。 由 于 应 用 服务 依赖 于 技术 组 件 (已 融入 体 
系 结构 中 ) ， 所 包含 的 技术 组 件 的 服务 停机 时 间 会 直接 关联 影响 到 应 用 的 用 户 服务 
停机 时 间 。 用 DBaas 替换 应 用 的 DBMS AF, 会 改变 如 图 12.9、 图 12.10, 
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图 12. 11 、 图 12. 12 所 示 的 责任 主体 。 应 用 提供 商 可 以 合理 地 预算 传统 技术 组 件 的 
停机 时 间 (例如 基于 PaaS 提供 商 提供 的 可 用 性 预测 技术 组 件 ) ,但 过 量 的 由 技术 
组 件 引 起 的 服务 中 断 ， 通 常会 归咎 于 技术 组 件 的 PaaS 提供 商 而 不 是 应 用 供应 商 。 







数据 库 及 服务 问 责 范 围 


应 用 程序 实例 边界 
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问 责 范 围 
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图 12.12 数据 库 即 服务 应 用 程序 示例 的 问 责 


12. 3.3 ”存储 即 服务 的 使 用 


物理 服务 器 或 计算 刀片 ， 以 及 虚拟 机 实例 ， 通 常 通过 使 用 本 地 硬盘 实现 对 许多 
应 用 组 件 实例 的 海量 存储 。 然 而 ， 对 于 一 些 应 用 架构 ， 最 好 是 依靠 高 度 可 靠 的 共享 
的 大 容量 存储 来 保存 应 用 数据 。 例 如 ， 对 于 应 用 程序 数据 ， 在 本 地 应 用 部 署 中 通 向 
会 被 存储 在 一 个 RAID 阵列 上 ， 而 现在 通常 会 被 配置 到 “存储 即 服务 ”上 。 为 了 存 
储 应 用 数据 ， 添 加 “外 置 ”RAID 存储 阵列 ， 扩 展 如 图 12.7 ~ 图 12. 13 所 示 的 示例 
应 用 RBD。 


前 端 负载 均衡 器 ”应 用 程序 逻辑 。 数据 库 管理 系统 外 部 存储 


ee 






与 维护 在 刀片 硬盘 上 的 数据 库 不 
同 ， 应 用 程序 经 过 配置 能 够 直接 
使 用 RAID 阵 列 


图 12.13 具有 外 部 RAID 存储 阵列 的 应 用 程序 示例 
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当 示 例 应 用 部 署 到 云 中 ， 图 12. 13 的 外 置 RAID 存储 阵列 可 以 被 “存储 即 服 
务 ” 所 取代 ， 如 图 12. 14 所 示 。 为 了 包括 “存储 即 服务 ” ， 图 12. 15 修改 了 图 12. 9 
的 问 责 图 表 。 需 要 注意 的 是 ， 图 12. 15 显示 的 “存储 即 服务 ”在 应 用 实例 边界 内 ， 
但 是 一 些 应 用 ， 消 费 者 和 云 服务 提供 商会 将 “存储 即 服务 ”作为 一 种 特别 的 元 素 ， 
需要 单独 度量 。 


应 用 程序 
应 用 程序 逻辑 。 ”数据 库 管理 系统 DBMS 的 永久 存储 
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图 12. 14 仓储 即 服务 应 占用 程序 示例 ， 
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图 12. 15 ATRAP RENN 应 用 程序 示例 的 问 责 


12. 4 硬件 可 靠 性 度量 演化 


ICT 组 件 的 硬件 可 靠 性 定义 已 经 被 更 新 ， 如 此 ， 修 理 故 障 (MTBF) 或 更 换 部 
件 的 平均 时 间 往 往 延 伸 到 数 万 小 时 或 更 多 。 尽 管 如 此 ， 硬 件 还 是 有 可 能 存在 由 不 知 
名 的 物理 原因 引起 的 故障 。 物 理 硬 件 故 障 ， 以 及 虚拟 机 监视 器 的 故障 和 主机 操作 系 
统 的 故障 ， 不 可 避免 地 影响 到 托管 在 架构 上 的 虚拟 机 应 用 软件 组 件 。 架 构 或 应 用 必 
须 检 测 底层 硬件 故障 ， 并 且 采 取 补 救 措施 ， 如 通过 重 定向 工作 负载 到 元 余 的 应 用 组 
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件 ， 分 配 和 配置 替换 虚拟 机 实例 来 恢复 整个 应 用 的 服务 能 力 。 故 障 事件 本 身 、 对 故 
障 的 检测 以 及 恢复 操作 ， 都 会 影响 用 户 体验 到 的 服务 质量 。 虚 拟 机 故障 事件 ， 应 该 
被 度量 ， 从 而 促使 采用 补救 措施 来 管理 和 减少 用 户 服务 质量 下 降 的 风险 。 


12.4.1 虚拟 机 故障 生命 周期 


传统 系统 软件 被 托管 在 硬件 现场 可 更 换 单元 (FRU) 上 ，FRU 被 定义 为 “一 
个 完全 独立 设计 的 部 分 ， 为 达到 使 用 维护 或 服务 调整 的 目的 ， 可 以 在 使 用 它 的 现场 
进行 替换 ” 。 虚 拟 化 应 用 组 件 在 虚拟 机 实例 中 执行 ， 可 以 有 效 地 虚拟 化 FRU。 正 如 
硬件 故障 操作 触发 高 可 用 软件 来 恢复 服务 到 一 个 元 余 FRU， 而 一 个 虚拟 机 实例 故 
障 通 常 触发 恢复 到 一 个 元 余 的 虚拟 机 实例 。 故 障 虚 拟 机 实例 可 能 通过 一 个 新 的 虚拟 
机 实例 被 “修复 ”， 其 中 新 虚拟 机 实例 是 作为 原 虚 拟 机 实例 的 一 个 替代 备份 ， 由 一 
个 自动 的 “修复 即 服 务 ” 机 制 或 自 愈 机 制 负责 进行 管理 和 配置 ， 参 见 5.3 节 。 发 
生 故 障 的 虚拟 机 实例 很 可 能 最 终 被 完全 破坏 ， 不 能 像 硬件 FRU 一 样 返修 。 

虚拟 化 技术 和 IaaS 运营 策略 应 解 耦 虚拟 机 实例 故障 模式 与 传统 硬件 可 靠 性 生命 
周期 ， 这 样 ， 基 于 传统 硬件 可 靠 性 生命 阶段 的 度量 方法 可 以 直接 采用 。 例 如 ， 目 前 任 
意 一 个 刚 被 分 配给 云 消费 者 的 虚拟 机 实例 ， 其 底层 的 基础 物理 硬件 不 会 像 硬件 生命 周 
期 的 早期 阶段 ， 会 有 较 高 的 故障 率 ， 而 是 像 生命 周期 的 正常 使 用 阶段 ， 只 有 较 低 的 稳 
态 故 障 率 。 因 此 ， 这 里 建议 一 个 简化 的 虚拟 机 故障 度量 模型 ， 如 图 12. 16 所 示 。 






: a t 应 用 程序 组 件 在 | 
”VM 分 配 、 配 置 并 启动 VM 实例 上 稳定 运行 | 
OC 人 人 OOO 
应 用 程序 开始 服务 前 发 生 在 应 用 程序 开始 服务 后 发 生 的 

的 故障 影响 “VM DOA” 故障 影响 “VM 可 靠 性 ”的 率 ， 

率 ， 例 如 计算 为 VM 实例 例如 计算 为 VM 实例 的 MTBF 或 

的 百 万 分 DoA 率 FIT(10? 小 时 故障 数 ) 


图 12. 16 ”虚拟 机 故障 生命 周期 


让 我 们 认真 地 考虑 图 12. 16 所 示 的 这 两 种 度量 技术 : 

© 虚拟 机 “到 达 即 死 ”( Dead on Arrival, DOA), DOA 是 指 “ 一 个 新 被 生产 
出 来 的 硬件 ， 在 交 货 或 安装 时 发 现 有 缺陷 (使 用 时 间 =0)。 正 如 硬件 的 
FRU 操作 ,偶尔 出 现 非 功能 性 故障 (又 名 “ 开 箱 即 用 ”失败 )， 当 第 一 次 
从 工厂 包装 盒 中 取出 进行 安装 ， 偶尔 会 出 现 因为 被 错误 配置 或 是 因为 其 他 
非 功 能 性 原因 导致 的 新 创建 的 虚拟 机 实例 不 启动 或 不 能 正常 工作 。 虚 拟 机 
的 DOA 可 以 表示 为 每 百 万 的 虚拟 机 分 配 请 求 (DPM) 的 故障 数 (BI DOA 
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事件 ) ， 也 可 以 被 简单 地 表示 为 虚拟 机 分 配 请 求 的 比例 。 虚 拟 机 DOA 明确 
度量 这 种 情况 : laas 提供 一 个 虚拟 机 实例 给 应 用 ， 但 是 被 错误 配置 (例如 
VLAN 设置 不 正确 ， 软 件 加 载 错误 ， 以 及 应 用 的 持久 性 数据 无 法 访问 等 ) , 
所 以 应 用 组 件 实例 名 义 上 托管 在 DOA 虚拟 机 中 ， 无 法 开始 服务 ， 也 无 法 为 
用 户 提供 可 接受 的 服务 质量 。 虚 拟 机 DOA 有 可 能 需要 延长 时 间 ， 以 完成 容 
量 的 弹性 增长 ( 因为 DOA 虚拟 机 必须 被 检测 到 ， 并 从 应 用 以 及 替换 虚拟 机 
实例 的 分 配 和 配置 中 脱离 出 来 ) 。 最 大 限度 地 减少 虚拟 机 DOA 率 ， 应 该 提 
高 可 预见 性 和 弹性 增长 操作 的 一 致 性 。 
虚拟 机 可 靠 性 。 在 应 用 组 件 已 成 功 启动 并 交付 服务 之 后 发 生 的 故障 被 视 为 
虚拟 机 实例 故障 。 虚 拟 机 实例 故障 率 可 以 表示 为 平均 故障 间隔 时 间 (MT- 
BF) 或 归 一 化 为 传统 硬件 故障 率 的 表示 方法 ， 即 每 十 亿 小 时 操作 (FIT) 
出 现 的 故障 。 虚 拟 机 的 可 靠 性 应 明确 包括 虚拟 机 监控 器 的 故障 和 底层 硬件 
以 及 架构 的 故障 。 例 如 ， 一 个 架构 故障 破坏 了 虚拟 机 实例 的 网 络 连通 性 ， 
被 当做 虚拟 机 的 可 靠 性 故障 ， 因 为 由 应 用 组 件 实例 提供 的 服务 会 受到 影响 。 
正如 在 4.2 节 “ 虚 拟 机 故障 ”中 所 讨论 的 ， 任 何事 件 如 果 导 致 一 个 虚拟 机 
实例 的 停止 运行 时 间 超 过 了 最 大 虚拟 机 中 断 时 间 ， 则 被 视 为 一 个 虚拟 机 可 
人 靠 性 故障 ， 除 非 该 事件 被 归结 为 以 下 原因 之 一 : 
o 云 消费 者 的 明确 请 求 (如 通过 自助 服务 GUI 提 出 要 求 ); 
o 应 用 实例 本 身 提出 的 明确 的 “关机 ”请 求 ; 
o 执行 由 Iaas 供应 商 预 先 制定 的 策略 ， 如 拖欠 账单 或 执行 合法 的 印 载 操作 。 
虚拟 机 DOA 度量 和 虚拟 机 可 靠 性 度量 应 该 集中 在 一 起 ， 这 样 对 于 所 有 虚拟 机 
故障 由 一 个 且 仅 由 一 个 虚拟 机 质量 度量 即 可 覆盖 。 确 切 地 划分 虚拟 机 DOA (名 义 
上 的 “可 访问 性 ”) 和 虚拟 机 实例 故障 率 (名 义 上 的 “可 持续 性 ”)， 以 及 具体 的 
故障 数量 和 标准 化 的 规则 ， 应 最 终 由 行业 标准 组 织 定义 ， 以 便 去 用户， 服务 提供 商 
和 供应 商 能 够 严格 度量 和 管理 这 些 关 键 架构 的 质量 。 


12.5 弹性 服务 可 用 性 度量 演化 


传统 上 系统 容量 的 增长 是 由 长 期 容量 使 用 的 预测 来 驱动 ， 而 不 是 用 来 支持 短期 
的 流量 的 尖峰 。 在 短期 内 增加 流量 是 通过 过 载 控制 机 制 来 实现 ， 它 会 减少 或 者 拒绝 
超过 应 用 容量 的 流量 ， 直 到 负载 回落 到 所 设计 的 容量 范围 之 内 。 如 果 工 作 负 载 超过 
了 应 用 的 设计 容量 ， 流 量 会 被 拒绝 或 丢弃 ， 不 会 产生 由 于 产品 属性 导致 的 中 断 ， 因 
为 应 用 是 参照 设计 规范 执行 的 ， 即 “超出 设计 规格 地 使 用 产品 ， 属 于 客户 操作 错 
误 ， 即 使 造成 中 断 停机 也 将 被 列 为 客户 滥用 的 责任 。”[ TL_9000] 

云 计算 系统 提供 弹性 动态 增长 (AK) 的 能 力 ， 并 且 因 此 可 以 被 用 来 添 
加 或 删除 虚拟 机 实例 ， 管 理 在 线 服务 容量 来 应 对 流量 的 增加 (或 减少 ) 。 虽 然 弹性 
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增长 可 以 实现 自动 化 和 由 策略 触发 〈( 例 如 ， 提 供 的 负载 超过 一 定 的 容量 阔 值 ) ,但 
弹性 增长 既 不 是 瞬间 完成 也 不 是 无 损 的 ， 因 此 并 不 排除 需要 过 载 控制 机 制 来 管理 流 
量 的 可 能 ， 直 到 增加 的 虚拟 机 已 经 被 激活 并 集成 到 系统 中 。 

如 第 3. 5. 2 节 中 所 解释 的 ， 云 弹性 增长 操作 是 利用 一 段 有 限 的 时 间 (Too) 来 
添加 一 部 分 有 限 的 应 用 容量 (C6)。 图 12. 17 突出 显示 ， 与 传统 的 容量 增长 操作 
相 比 ， 弹 性 增加 的 容量 不 会 立即 被 认为 是 “可 用 的 "， 直 到 其 通过 弹性 增长 容量 的 
验收 测试 ， 确 认 新 的 IaaS 容量 不 是 DOA ( 见 第 12.4 节 ) ， 并 且 该 容量 已 正确 激活 
并 整合 到 应 用 实例 中 ， 并且 已 经 完全 准备 好 为 用 户 提供 质量 可 接受 的 服务 。 需 要 注 
意 的 是 ， 如 果 云 消费 者 选择 把 弹性 增长 转化 为 服务 ， 但 没有 完成 推荐 的 验收 检测 ， 
那么 由 于 服务 容量 增加 失败 形成 的 任何 影响 都 归 因 于 客户 ， 就 像 对 于 传统 的 手动 系 
统 容量 的 增长 过 程 一 样 ， 如 果 客 户 选择 忽略 推荐 的 测试 ， 责 任 也 是 由 客户 自己 承 
担 。 如 果 虚 拟 机 实例 的 增长 速度 太 慢 或 失败 ， 并 且 不 能 减轻 工作 量 ， 那 说 明 它 已 超 
过 设计 能 力 ， 这 时 过 载 控 制 机 制 应 该 继续 管理 流量 ， 就 像 传统 的 系统 一 样 。 


自动 或 手动 触 
发 容量 增长 操作 


在 成 功 接受 新 应 用 
程序 容量 测试 之 前 


在 接受 新 分 配 在 线 
容量 测试 并 确定 操 
作 正 确 之 后 生成 容 
量 增长 操作 






在 成 功 接受 新 应 用 
程序 容量 测试 之 后 
的 正常 停机 容量 


Me RY 


的 正常 停机 容量 





图 12.17 弹性 容量 增长 时 间 表 


12.6 发 布 管理 服务 可 用 性 度量 演化 


与 容量 增长 一 样 ， 软 件 发 布 管理 〈 包 括 软 件 补丁 、 更 新 、 升 级 和 改造 ) ， 锌 认 
为 是 一 个 有 计划 的 维护 活动 ， 任 何 需要 停机 的 时 间 都 需要 在 规划 或 计划 之 内 。 有 些 
客户 要 求 其 关键 应 用 软件 升级 需要 在 没有 停机 或 影响 用 户 服务 的 情况 下 完成 。 如 宁 
软件 升级 操作 失败 ， 并 导致 服务 影响 或 超过 商定 的 计划 停机 时 间 ， 服 务 停机 时 间 可 
能 会 延长 。 基 于 云 应 用 的 发 布 管理 导致 对 用 户 服务 的 影响 ， 将 同样 作用 于 最 终 用 户 
身上 ， 相 同 的 服务 中 断 度 量规 则 同样 适用 。 

在 发 布 管理 过 程 中 ， 对 用 户 服务 影响 事件 的 标准 化 会 受到 发 布 管理 模型 的 影 
啊 。 第 9 章 “ 发 布 管理 ”将 基于 云 的 发 布 管理 措施 分 为 两 大 类 : 

。 H., 街区 聚会 《参见 9.3.1 节 )。 新 旧版 本 的 软件 可 以 同时 运行 在 虚拟 机 
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上 ， 服 务 于 用 户 流量 ， 理 论 上 可 以 继续 这 样 持续 下 去 。 有 些 用 户 使 用 新 版 
本 提供 的 服务 ， 有 些 用 户 则 使 用 旧版 本 提供 的 服务 。 如 图 12.18 (图 9.4 的 
修改 版 ) 所 示 ， 每 个 版 本 〈 例 如 版 本 “N” 和 版 本 “N + P) 显示 为 不 同 
的 、 独 立 的 应 用 实例 ， 在 对 版 本 “N + 7” 成 功 完成 验收 测试 后 ， 会 根据 每 
个 应 用 实例 的 配置 容量 ， 为 每 一 个 应 用 实例 分 别 设置 标准 化 的 服务 中 断 时 
间 。 需 要 注意 的 是 ， 有 经 验 的 客户 一 般 会 将 新 的 版 本 放 到 一 个 足够 较 小 的 
用 户 组 中 进行 “浸泡 ”测试 ， 这 样 有 害 版 本 不 会 产生 影响 巨大 的 中 断 事件 。 


小 部 分 用 户 通过 限 
制 停机 时 间 浸 泡 测 
试 新 的 发 布 版 用 于 
非 安全 发 布 - 





图 12. 18 类 型 1“ 街 区 聚会 ”发 布 管理 的 正常 停机 


。 1H: 每 车 一 司机 〈 见 第 9. 3.2 节 ) 。 在 这 种 情况 下 ， 活 动 的 应 用 实例 是 在 


特定 的 时 间 进 行 明 确 的 切换 ， 因 此 中 断 度量 直接 又 加 到 活动 的 应 用 实例 上 。 
如 图 12. 19 所 示 ， 在 任何 时 间 瞬 间 ， 名 义 上 只 有 一 个 版 本 在 服务 (就 像 传 


REE EE ee ton, 


Pari 


N 
Momeni rr ais eee PER a 





图 12.19 类 型 “每 年 一 司机 ”发 布 管理 的 正常 停机 
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统 的 部 署 ) ， 所 以 中 断 事件 可 以 像 传统 应 用 部 署 一 样 进行 规范 化 。 
12.7 服务 度量 展望 


传统 的 服务 可 用 性 度量 可 以 被 改造 ， 以 覆盖 运行 在 云 计 算 基 础 架构 上 的 现 有 的 
应 用 。 传 统 应 用 服务 的 可 靠 性 、 时 延性 、 可 访问 性 和 持久 性 度量 也 可 应 用 于 云 部 署 
模式 。 将 传统 的 服务 度量 应 用 到 基于 云 的 应 用 ， 会 使 最 终 用 户 ， 客 户 和 供应 商 能 够 
轻松 地 比较 服务 性 能 ， 分 析 和 纠正 传统 服务 和 云 部 署 的 根本 差距 ， 从 而 有 利于 促使 
云 部 署 满足 或 超越 传统 应 用 部 署 的 服务 质量 。 对 软件 版 本 的 跟踪 和 分 析 服 务 度量 ， 
能 够 深入 了 解 每 个 版 本 的 开发 、 检 验 和 部 署 过 程 。 同 样 ， 对 应 用 实例 (由 不 同 的 
云 服务 提供 商 提供 ， 由 不 同 的 操作 团队 支持 ) 的 跟踪 和 分 析 服 务 度量 ， 可 以 进行 
比较 。 


As 13 音 应 用 程序 服务 质量 需求 


对 关键 服务 性 能 特征 的 严格 定义 和 量化 ， 使 得 可 以 系统 地 采用 分 析 ， 设 计 和 验 
证 等 方法 ， 来 保证 需求 具有 持续 满足 的 可 行 性 和 可 能 性 。 针 对 目标 应 用 的 关键 服务 
质量 的 需求 ， 应 该 有 明确 的 定义 ， 明 确 的 度量 和 量化 的 最 低 期 望 。 最 高 级 别 的 服务 
质量 需求 ， 应 能 描述 最 终 用 户 的 体验 ， 而 不 是 仅 关 注 各 个 组 件 的 行为 或 是 API。 对 
于 第 2. 5 节 “ 应 用 程序 服务 质量 ”中 的 应 用 实例 ， 最 根本 的 应 用 服务 质量 性 能 需 
求 被 认为 是 : | 

。 服务 可 用 性 需求 (第 13.1 节 ) ; 

© 服务 延迟 需求 (第 13.2 45); 

。 服务 可 靠 性 需求 (第 13.3 节 ); 

e 服务 可 访问 性 需求 (第 13.4 节 ); 

。 服务 可 持续 性 需求 (第 13.5 节 ) ; 

。 服务 吞吐 量 需 求 (第 13.6 节 ); 

。 时 间 惟 精度 需求 (48 13.7 节 ) 。 

下 列 需求 也 应 被 考虑 : 

。 弹性 需求 (第 13. 8 节 ); 

。 发 布 管理 需求 (第 13.9 节 )。 


13.1 服务 可 用 性 需求 


服务 可 用 性 是 最 根本 的 质量 需求 ， 因 为 如 果 应 用 无 法 提供 服务 给 用 户 ， 也 就 没 
有 别 的 事情 可 做 。 对 应 用 主要 功能 的 识别 很 关键 ， 因 为 一 旦 失去 了 这 个 主要 功能 ， 
那么 整个 系统 被 认为 中 断 ， 而 非 主要 功能 的 故障 仅仅 不 过 是 出 了 一 个 问题 而 已 ， 不 
会 波及 整个 系统 ， 尽 管 也 许 是 一 个 严重 问题 。 主 要 功能 通常 是 特定 的 最 高 级 别 的 需 
求 和 产品 文件 ， 应 确定 应 用 的 哪些 功能 被 认为 是 主要 的 。 服 务 的 可 用 性 需求 。 

除了 包含 对 应 用 的 主要 功能 进行 指定 之 外 ， 服 务 可 用 性 需求 还 应 该 包括 : 

1) 最 大 可 接受 的 服务 中 断 : 不 同 的 应 用 ， 特 别 是 当 通过 不 同 的 客户 端 访问 ， 
可 能 使 应 用 服务 中 断 有 所 不 同 。 例 如 ， 流 媒体 解码 器 通常 包括 丢失 的 数据 包 隐 藏 算 
法 ， 如 重播 以 前 的 音频 数据 包 ， 而 不 是 静音 一 段 时 间 ， 这 样 偶 尔 的 数据 包 延 迟 ， 丢 
失 或 损坏 ， 可 以 不 让 最 终 用 户 感觉 到 。 一 个 更 极端 的 例子 是 流 媒体 客户 端 ， 包 括 巨 
大 的 缓冲 区 能 够 预 取 10s 以 上 的 内 容 ， 这 使 客户 端 能 够 自动 检测 和 恢复 大 量 应 用 和 
网 络 问题 ， 而 不 影响 用 户 的 服务 。 最 大 可 容 妨 服务 中 断 时间 指 定 了 应 用 服务 提供 到 
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客户 端 设备 的 影响 时 间 ， 超 出 该 时 间 就 有 可 能 创建 一 个 不 可 接受 的 服务 体验 。 应 
用 、 架 构 和 配置 (例如 ， 定 时 器 的 设置 及 最 大 重 试 次 数 的 设置 ) 都 被 设计 成 在 最 
大 可 接受 服务 窗口 内 能 够 成 功 交付 服务 。 如 果 受 故障 影响 的 服务 在 这 一 最 大 可 接受 
服务 中 断 时 间 内 不 能 被 检测 并 恢复 ， 该 服务 被 认为 是 “不 好 ”的 ， 并且 服 务 的 指 
标 性 能 也 会 被 影响 。 例 如 ，[TL_9000] 中 规定 :“ 全 部 中 断 应 该 这 样 计 算 : 导致 全 
部 或 部 分 系统 的 主要 功能 完全 丧失 ， 且 持续 至 少 15s 以 上 的 时 间 。” 注 意 ， 该 最 大 
可 接受 的 服务 延迟 对 于 独立 事务 经 常会 缩短 一 些 ， 因 为 服务 中 断 ， 需 要 一 个 以 上 的 
故障 的 事务 。 读 者 会 在 网 页 浏览 中 非常 熟悉 这 种 体验 : 一 个 被 “ 卡 ” 或 挂 掉 的 网 
页 一 般 会 提示 “取消 ”和 “刷新 ”页 面 。 如 果 第 一 或 者 第 二 次 刷新 成 功 ， 那 么 失 
败 的 页 面 加 载 算 作 故 障 事务 ， 会 影响 网 站 的 服务 可 靠 性 评价 。 但 是 ， 如 果 重 新 刷 
新 ， 在 可 接受 的 最 大 服务 中 断 时 间 内 没有 成 功 ， 那 么 该 网 站 被 认为 是 不 可 用 的 


(至 少 对 于 用 户 来 说 ) ， 如 图 13. 1 所 示 。 
最 大 可 接收 服务 中 断 : 
= 





用时 条 件 服务 递增 长 服务 不 可 用 
对 数 坐 标 ~100 ms i 
时 间 表 
a, = 
高 可 用 性 目标 : 
在 最 大 可 接受 服务 中 断 延 迟 内 自动 检 


测 并 恢复 故障 ， 确 保 故障 不 会 导致 服 - 
务 停止 ， 影 响 可 用 性 度量 或 是 影响 客 
户 满意 程度 


图 13.1 最 大 可 接受 的 服务 中 断 


2) 按 比例 损失 部 分 容量 : 庞大 而 复杂 的 多 用 户 应 用 有 大 量 的 故障 模式 ， 往 往 
对 用 户 的 服务 能 力 产 生 不 同 的 影响 。 一 个 影响 所 有 用 户 的 关键 故障 被 认为 是 一 个 总 
中 断 ， 如 果 一 个 事件 只 影响 单个 用 户 ， 而 其 他 几 十 ， 几 百 或 几 千 个 用 户 仍 能 正常 访 
问 应 用 ， 那 么 通 笛 不 被 认为 是 服务 中 断 。 例 如 ， 缓 慢 地 提供 网 页 给 一 小 部 分 用 户 ， 
可 能 不 足以 作为 一 项 关键 服务 中 断 ， 但 它 可 能 导致 受 影响 用 户 放弃 该 网 站 而 转向 竞 
争 对 手 。 问 题 是 在 该 事件 被 认为 是 部 分 容量 损失 服务 中 断 之 前 ， 有 多 少 用 户 服 务 容 
量 被 影响 。 习 惯 上 ， 通 过 用 户 影响 的 百分比 按 比 例 去 分 配 部 分 容量 损失 中 断 。 在 实 
践 中 ， 采 用 这 种 计算 通常 是 相当 复杂 的 ， 特 别 是 当 应 用 支持 弹性 容量 ， 预 先 约定 局 
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部 容量 损失 比例 是 非常 有 用 的 。 例 如 ， 应 用 服务 供应 商 可 能 有 关于 事故 的 报告 和 管 
理 的 操作 策略 ， 例 如 ， 事 件 影响 至 少 10000 个 用 户 ， 会 引起 总 经 理 的 关注 ; 事件 影 
Me] 50 ~ 9999 个 用 户 ， 会 引起 直接 主管 的 注意 ; 事件 影响 10 ~49 用 户 ， 会 引起 监督 
ANKE; 事件 影响 1 ~9 个 用 户 ， 会 直接 由 维修 工程 师 使 用 普通 优先 级 进行 处 理 。 
这 一 政策 鼓励 故障 被 包含 到 不 超过 9 个 用 户 ， 然 后 是 不 超过 49 个 用 户 ， 然 后 是 不 
超过 9999 个 用 户 。 

3) 按 比例 损失 部 分 功能 : 故障 往往 影响 部 分 系统 功能 。 例 如 ，Netflix 公司 的 
“ 兰 博 架 构 ”[ Netflix ] 中 明确 被 设计 成 能 够 继续 提供 至 少 主要 功能 给 最 终 用 户 ， 尽 
管 出 现 故 障 。 因 此 ， 事 先 约 定 如 果 部 分 功能 损失 了 如 何 收取 费用 是 非常 有 用 的 。 例 
如 ， 下 面 是 传统 部 分 功能 比例 原则 [TL_9000] ， 主 要 包括 : 

a. 一 个 或 一 个 以 上 的 操作 、 管 理 和 维护 功能 的 总 损失 (默认 权重 为 5% ) 

b. 网 元 管理 系统 (EMS) 可 见 的 总 损失 (默认 权重 为 10% )。 

4) 最 大 量化 和 标准 化 的 服务 中 断 : 表 13. 1 针对 公共 服务 可 用 性 预期 ， 给 出 了 
每 个 系统 的 最 大 年 度 服务 死机 的 时 间 比 例 。 需 要 注意 的 是 ， 每 个 测量 周期 〈 例 如 ， 
每 月 几 分 钟 ) 的 最 大 允许 死机 时 间 ， 而 更 需要 关注 的 是 ,严格 地 限定 最 大 可 接受 
服务 中 断 ， 最 小 付费 容量 的 影响 ， 以 及 局 部 容量 和 功能 损失 事件 的 比例 分 配 规则 。 
可 用 性 需求 在 应 用 被 部 署 并 开始 运行 过 程 中 被 使 用 (与 中 断 度量 应 该 完全 一 致 ) ， 
这 样 设 计 师 ， 开 发 人 员 和 测试 人 员 就 能 够 定量 地 了 解 任何 可 能 导致 服务 中 断 的 故障 
的 影响 。 对 任何 特定 故障 事件 的 影响 和 补救 架构 的 清晰 量化 ， 也 会 使 设计 师 、 开 发 
人 员 、 测 试 人 员 ， 以 及 其 他 有 关于 人 员 有 更 多 的 话题 来 研究 讨论 如 何 改善 服务 。 


表 13.1 服务 可 用 性 与 停机 率 
压 “9” 的 个 数 ”服务 可 用 性 年 度 死机 分 钟 ” 季度 死机 分 钟 。” 每 月 死机 分 钟 实践 意义 


l 90 52596. 00 13149. 00 4383. 00 每 年 5 周 
2 99 5259. 60 1314. 90 438. 30 每 年 4 天 
3 99.9 525. 96 131. 49 43. 83 每 年 9 小 时 
4 99. 99 52. 60 13. 15 4. 38 每 年 1 小 时 
5 99. 999 5. 26 1. 31 0. 44 每 年 5 分 钟 
6 99. 9999 0. 53 0. 13 0. 04 每 年 30 秒 
7 99. 99999 0. 05 0.01 十 每 年 3 秒 


由 于 实际 测试 活动 是 不 太 可 能 使 用 某 一 版 本 的 应 用 测试 足够 长 的 时 间 ， 以 获得 
较 高 统计 置信 和 度 的 每 个 系统 每 年 的 服务 中 断 时 间 ， 为 此 ， 数 学 建 模 通常 被 引入 来 验 
证 服务 的 高 可 用 性 需求 。 通 常情 况 下 ， 基 于 架构 的 可 用 性 模型 会 考虑 系统 故障 率 、 
服务 补救 的 成 功率 、 服 务 恢复 时 间 ， 以 及 其 他 因素 ， 从 而 佑 计 系 统 的 长 期 服务 可 用 
性 的 可 行 性 和 可 能 性 。 虽 然 构建 基于 体系 以 构 的 服务 可 用 性 模型 超出 了 本 书 讨论 的 
范围 ， 但 基于 架构 的 模型 能 够 反映 关键 行为 和 系统 特性 ， 所 以 至 少 针对 一 些 关 键 应 
用 特性 ， 有 可 能 构造 可 量化 和 可 验证 的 需求 。 这 些 关 键 应 用 特征 例如 : 
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© 应 用 程序 启动 和 重启 时 间 ; 

© 故障 检测 延迟 ; 

© 服务 恢复 操作 延 时 (例如 ， 切 换 和 故障 迁移 ) ; 

© 成 功 完成 切换 或 故障 迁移 的 概率 。 

由 于 许多 关键 应 用 的 特点 在 构架 和 设计 阶段 不 是 非常 明确 ， 开 发 团队 会 经 常会 
为 所 有 输入 参数 估算 初始 值 ， 然 后 在 测试 期 间 测 量 实际 值 ， 并 更 新 基于 架构 的 可 用 
性 模型 的 输入 参数 的 实际 值 ， 从 而 在 测试 结束 前 得 到 一 个 更 好 的 可 用 性 预测 值 。 最 
佳 做 法 是 为 关键 可 用 性 输入 参数 设 定 定量 需求 ， 以 保证 每 一 个 值 是 认真 在 测试 过 程 
中 测 得 的 ， 但 是 不 是 很 严格 的 方法 也 可 能 被 接受 。 


13.2 服务 延迟 需求 


通常 最 终 用 户 在 某 一 时 间 只 会 使 用 一 个 应 用 处 理 一 个 事务 (如 网 页 单 击 、 通 
话 建立 、 信 道 改 变 ) ， 在 用 户 操 作 与 应 用 服务 的 啊 应 之 间 的 延迟 是 一 个 重要 的 服务 
质量 特征 。 最 大 可 以 接受 的 事务 服务 延迟 会 规定 上 限 ， 超 出 这 一 上 限 许多 或 大 多 数 
用 户 将 放 径 请 求 〈 例 如 可 取消 网 页 加 载 ) 。 如 果 事 务 完 成 慢 于 这 个 最 大 可 接受 的 延 
迟 ， 将 被 认为 是 失败 的 ， 因 此 这 也 会 被 算 作 服务 的 可 靠 性 缺陷 〈 在 第 13.3 节 “ 服 
FY SEER” PATE) 。 

正如 在 第 4.1 市 “服务 延迟 、 虚 拟 化 和 云 ” 中 所 讨论 的 ， 服务 延迟 最 好 被 认 
为 是 一 个 统计 分 布 ， 而 不 是 一 个 单一 的 可 以 明确 测量 的 值 。 一 个 简单 的 规格 技术 是 
通过 两 个 指标 来 说 明 服 务 延 迟 的 分 布 要 求 ， 例 如 最 大 可 接受 的 延迟 在 90% (最 慢 
Her 1/10) 和 99. 999% 《最 慢 的 占 百 万 分 之 一 ) 。 这 些 要 求 可 以 通过 延迟 CCDF it 
行 检验 ， 以 验证 该 分 布 不 超过 10” ( 即 90% ) 或 10” ( 即 99.999% ) 。 


13.3 服务 可 靠 性 需求 


服务 可 靠 性 的 需求 是 指 一 个 逻辑 上 ， 语 法 上 和 语义 上 正确 的 服务 请 求 在 最 大 可 
接受 的 服务 延迟 〈 见 第 13.2 节 , “服务 延迟 需求 ") 时 间 内 产生 正确 响应 的 概率 。 
服务 可 靠 性 需求 可 以 非常 方便 简单 地 指定 为 每 百 万 次 (DPM) 尝试 中 失效 (或 故 
障 ) 操作 的 次 数 。 传 统 上 ， 一 些 方法 使 用 若干 个 9 来 表示 服务 的 可 靠 性 ,但 这 种 
格式 对 大 多 数 人 来 说 操作 和 评估 都 很 困难 ， 所 以 这 里 建议 使 用 DPM。 此 外 ， 还 应 
该 指定 最 大 可 接受 事务 延迟 ， 超 过 了 该 最 大 延迟 ， 事 务 被 视 为 失败 ， 因 为 用 户 很 可 
能 会 取消 或 放弃 慢 的 事务 。 和 常见 的 基于 百分比 的 服务 可 靠 性 值 可 以 很 容易 映射 到 
DPM 值 ， 如 下 所 示 : 

99. 9% 的 服务 可 靠 性 = 每 百 万 中 有 1000 个 失效 操作 (DPM) 
99.99% 的 服务 可 靠 性 = 100DPM 
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99. 999% 的 服务 可 靠 性 =10DPM 

99. 9999% 的 服务 可 靠 性 = 1DPM。 
如 式 (13.1) (通过 尝试 操作 和 成 功 操作 计 DPM), st (13.2) (通过 尝试 操 
作 和 失败 操作 计算 DPM) 和 式 (13.3) (通过 成 功 操作 和 失败 操作 计算 DPM) 所 
示 ，DPM 很 容易 计算 以 下 中 的 任意 两 个 : 尝试 操作 次 数 ， 成 功 操 作 次 数 和 失败 操 





作 次 数 。 
pee = {SEIS ee) xD (13.1) 
ppm = Ree x10" (13. 2) 
DP a i 0° (13.3) 


请 注意 ， 不 同 的 事务 类 型 可 能 有 不 同 的 DPM 和 最 大 事务 等 待 时 间 要 求 ， 即 使 
是 相同 的 应 用 程序 。 例 如 ， 用 户 可 能 希望 简单 的 查询 操作 是 快速 和 可 徘 的 (例如 ， 
500ms 内 小 于 10 DPM) ， 登 录 操 作 时 间 较 慢 但 可 以 忍受 〈 例 如 在 Ss 以 内 小 于 50 
DPM) ， 而 像 配置 新 的 应 用 用 户 这 样 的 复杂 事务 ， 由 于 更 大 的 复杂 性 ， 可 能 需要 有 
更 宽松 的 要 求 〈 例 如 ，20s 内 小 于 <100DPM) 。 


13.4 服务 可 访问 性 需求 


服务 可 用 性 需求 主要 考虑 影响 大 量 用 户 的 事件 所 造成 的 影响 ， 服 务 的 可 访问 性 
指标 主要 考虑 任何 单一 用 户 可 以 成 功 获 得 所 需 服 务 的 概率 。 服 务 可 访问 性 需求 被 定 
SCA DPM 的 最 大 值 ， 并 且 服 务 可 访问 性 需求 应 能 保证 有 一 个 以 上 的 可 访问 场景 ， 
例如 : 
e 成 功 地 登录 到 一 个 服务 的 能 力 ， 并 有 正确 的 主页 面 显 示 (如 用 户 登 录 之 后 
主页 面 应 在 10s 以 内 显示 出 来 ) ， 且 DPM 不 要 多 于 100。 

。 开启 一 个 电影 流 媒体 ， 且 具有 可 接受 的 音 视频 质量 的 能 力 (如 视频 和 音频 
将 开始 播放 给 最 终 用 户 ) 应 在 用 户 按 下 “PLAY” 键 5s 以 内 ， 且 DPM 不 要 
超过 50。 | 

o 建立 电话 呼叫 和 接收 回话 的 能 力 (如 回话 应 在 按 下 “发 送 ” 键 4s 内 发 出 且 

不 超过 20DPM ) 。 


13.5 服务 可 持续 性 需求 


服务 的 可 持续 性 是 面向 会 话 应 用 的 特定 指标 ， 如 流 媒体 电影 从 开始 播放 到 结束 
没有 察觉 到 音 视频 中 断 的 概率 ， 或 是 可 以 连续 提供 可 接受 的 服务 质量 的 电话 呼叫 ， 


第 13 章 应 用 程序 服务 质量 需求 191 


直到 通话 一 方 明确 挂 断 。 出 于 实用 目的 的 考虑 ， 名义 上 可 以 指定 一 个 测试 用 例 
(例如 两 小 时 的 流 媒体 电影 或 持 有 三 分 钟 的 电话 通话 ) 。 服 务 可 持续 性 需求 可 以 被 
量化 为 每 百 万 (DPM) 应 用 会 话 中 被 提前 终止 或 经 历 服务 损失 〈 质 量 不 可 接受 ) 
的 会 话 数量 。 

请 注意 ， 可 访问 性 和 可 持续 性 能 力 对 于 面向 会 话 的 服务 往往 是 背靠背 指标 ， 因 
此 ， 应 用 安装 失败 一 般 认 为 是 可 访问 性 服务 质量 问题 ， 而 在 服务 正常 建立 之 后 的 服 
务 质 量 问题 通常 认为 是 可 持续 性 问题 。 因 此 ， 在 考虑 应 用 的 可 访问 性 需求 时 ， 应 该 
一 并 考虑 可 持续 性 需求 ， 并 确保 所 有 这 些 服务 需求 能 够 充分 定义 最 终 用 户 所 期 望 的 
服务 质量 体验 。 


13.6 服务 吞吐 量 需 求 


否 吐 量 和 需求 通常 是 指 每 秒 能 够 完成 的 事务 处 理 的 最 小 比率 或 每 小 时 批量 完成 
的 事务 处 理 的 最 小 比率 。 最 好 的 做 法 是 ， 将 服务 吞吐 量 需 求 与 服务 可 靠 性 需求 并 
列 ， 例 如 “在 每 小 时 5 千 个 操作 、 小 于 100DPM 情况 下 ， 应 用 每 小 时 交付 的 最 小 
否 吐 量 ”。 


13.7 时间 戳 精度 需求 


时 间 戳 精度 需求 通常 是 指 所 记录 的 时 间 戳 与 世界 时 间 (UTC， 事 件 实际 发 生 时 
间 ) 之 间 最 大 可 以 接受 的 差异 〈 如 之 秒 或 微 秒 ) 。 例 如 ，“ 在 每 百 万 个 时 间 惟 中， 
不 准确 程度 超过 100ms 的 时 间 戳 ， 不 要 超过 50 个 ”。 


13.8 弹性 需求 


应 用 的 弹性 染 构 、 体 系 设计 、 性 能 分 析 ( 见 第 8 章 “ 容 量 管理 “和 第 15.6 节 
“弹性 分 析 ”) ， 应 该 根据 应 用 弹性 指标 〈 见 第 3.5 节 “ 弹 性 度量 " ) 由 可 验证 的 服 
务 需 求 来 驱动 : 

。 密 度 〈 第 3.5.1 节 ,“ 密 度 ") 。 密 度 需 求 是 指 由 一 个 特定 的 资源 配置 服务 

的 最 大 用 户 工 作 负 载 ， 且 可 以 持续 不 断 地 满足 所 有 应 用 的 服务 质量 需求 。 
密度 会 随 云 服 务 提供 商 的 架构 性 能 特征 而 发 生变 化 ， 因 此 为 每 个 虚拟 机 实 
例 指定 一 个 通用 的 密度 需求 是 不 现实 的 。 根 据 laas 资源 的 费用 支出 来 直 
接 指定 一 个 应 用 密度 需求 也 是 不 现实 的 〈 例 如 ， 每 月 Taas 向 了 个 订购 服 
务 的 用 户 收取 费用 XX 元 ) 。 密 度 需 求 通常 可 以 通过 下 列 中 的 一 个 或 两 个 来 
实现 : 

1) 当 应 用 程序 依据 一 个 特定 的 IaaS 配置 执行 时 ， 可 以 指定 密度 。 例 如 “最 大 
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的 用 户 密度 是 每 个 虚拟 机 实例 中 至 少 有 了 六 个 活动 用 户 ”。 

2) 指定 服务 质量 标准 ， 以 确定 最 大 可 接受 密度 。 例 如 “每 个 虚拟 机 实例 最 大 
的 用 户 工 作 量 可 以 配置 为 : 在 不 超过 100ms 的 105 个 查询 操作 中 最 慢 的 一 个 ”。 

。 扩展 ( 见 第 3.5.4 节 向 上 或 向 下 扩展 ) 。 最 大 的 应 用 实例 名 义 上 的 容量 应 

该 被 指定 ， 例 如 最 大 并 发 用 户 会 话 数 或 待 处 理 业务 数量 。 

。 人 敏捷 ( 见 第 3.5.6 节 )。 容 量 增 长 和 逆 增 长 的 名 义 上 的 单位 应 该 被 指定 。 

。 配置 间隔 ( 见 第 3.5.2 节 ) 。 对 于 所 有 弹性 增长 操作 ， 最 大 配置 间隔 时 间 应 
该 被 指定 ， 通 常 是 指 超出 云 服 务 提 供 商 完成 分 配 操作 所 需 时 间 而 增加 的 
时 间 。 

。 转换 速率 ( 见 第 3.5.7 节 ) 。 持 续 的 容量 增长 的 预期 速率 应 该 被 指定 。 例 如 
“应 用 应 该 弹性 增加 服务 容量 ， 按 每 小 时 至 少 5000 个 用 户 速度 从 最 小 扩展 
到 最 大 ”。 

o 弹性 加 速 ( 见 第 3.5.8)。 应 用 的 体系 设计 文档 应 说 明 弹 性 加 速 是 否 支 持 ， 
以 及 如 何 支持 的 。 

如 果 支 持 弹 性 加 速 ， 则 最 小 可 接受 加 速 应 被 指定 ， 连 同 加 速 带 来 的 好 处 〈 即 ， 
作为 增加 资源 消耗 的 函数 ) 。 释 放 间 隔 名 义 上 是 不 需要 的 资源 从 应 用 实例 中 被 释放 
速度 的 下 限 。 资 源 的 费用 一 般 是 廉价 的 ， 通常 按 小 时 收取 ， 释 放 间 隔 时 间 ( 见 第 
3.5.3 节 ) 通常 不 是 一 个 重要 的 关键 质量 指标 ， 所 以 一 般 不 定量 指定 发 布 间隔 需求 
是 可 以 接受 的 。 


13.9 发 布 管理 需求 


应 用 发 布 管 理 需求 通常 指定 下 列 内 容 : 

© 执行 软件 升级 或 数据 迁移 所 需 的 总 时 间 间 隔 (如 <4h) 

© 服务 死机 的 允许 时 间 ， 如 果 有 的 话 ， 要 为 每 一 个 版 本 管理 事件 指定 允许 死 

机 时 间 (例如 ，<15s)。 

e 对 新 的 和 现 有 的 会 话 服务 的 影响 〈 如 保持 所 有 稳定 的 会 话 ) 

e 在 浸泡 测试 中 ， 引 导 流 量 到 一 个 特定 版 本 的 比率 

。 应 用 或 虚拟 机 实例 升级 的 依赖 关系 或 顺序 

服务 中 断 指 标 和 会 话 被 终止 的 数量 指示 应 被 统一 起 来 ， 以 证 明 符 合 所 规定 的 具 
体 要 求 。 


13.10 ”灾难 恢复 需求 


应 用 的 恢复 时 间 目 标 应 该 被 量化 ， 例 如 恢复 完成 的 准确 时 间 可 以 量化 为 : 90% 
的 受 影响 的 用 户 已 成 功 恢复 。 应 用 的 恢复 目标 点 可 以 定量 地 指定 为 可 接受 数据 丢失 
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的 最 大 窗口 尺寸 。 

如 果 任 何 持 久 性 应 用 或 用 户 数 据 不 能 被 灾难 恢复 机 制 保护 ， 那 么 这 些 数据 的 潜 
在 损失 应 明确 规定 〈 例 如 在 服务 水 平 协议 SLA 中 ) ， 以 确保 灾难 恢复 存在 的 限制 被 
充分 理解 。 
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服务 缺陷 的 及 时 识别 和 准确 定位 ， 对 于 迅速 恢复 可 接受 的 用 户 服务 质量 和 采取 
正确 措施 纠正 问题 根源 是 很 有 必要 的 。 找 到 影响 服务 的 真正 故障 原因 并 加 以 改正 ， 
是 持续 提高 服务 质量 的 核心 。 为 了 能 够 及 时 识别 虚拟 化 架构 的 缺陷 ， 云 用 户 和 应 用 
供应 商 应 确保 对 虚拟 化 架构 服务 质量 进行 充分 的 服务 度量 。 本 章 主 要 讨论 通过 
MPO 服务 边界 进行 服务 质量 的 度量 (MPO 见 第 10. 1 他“ 端 到 端 服务 环境 ”) 。 如 
图 14. 1 所 示 ， 由 云 服务 提供 商 通 过 应 用 程序 面向 资源 服务 边界 (MPO) 交付 给 应 
用 组 件 实例 (运行 于 虚拟 机 中 ) 的 虚拟 化 计算 资源 ， 内 存 ， 存 储 占 和 网 络 资源 的 
性 能 ， 直 接 影响 应 用 交付 给 最 终 用 户 的 服务 质量 。 应 用 面向 资源 服务 边界 MPO 的 
服务 性 能 ， 可 能 会 被 度量 成 低 于 架构 服务 提供 商 所 面 对 边界 的 服务 性 能 ， 其 中 存在 
的 风险 在 第 14. 1 节 中 讨论 。 架 构 的 MPO 服务 性 能 也 可 通过 应 用 进行 度量 ， 这 将 在 
第 14. 2 节 云 消费 者 度量 选项 里 讨论 。 第 14. 3 节 “ 缺 陷 度量 策略 ”讨论 每 一 个 在 第 
4 章 中 涉及 的 虚拟 化 架构 缺陷 的 度量 技术 。 第 14.4 节 “ 管 理 虚 拟 化 架构 缺陷 ” 回 
顾 了 如 果 架 构 的 性 能 低 于 预期 ， 云 消费 者 可 以 采取 的 技术 和 策略 措施 。 


2 
面向 用 户 。 
服务 边界 。 

œ (MPI) è 
d ‘ 






通过 云 服务 提供 商 传输 
的 面向 资源 服务 会 影响 
终端 用 户 的 面向 用 户 服 
务 体验 







14. 1 架构 缺陷 和 应 用 缺陷 


14.1 架构 服务 质量 度量 的 业务 环境 


云 服 务 提供 商 应 该 可 以 利用 从 虚拟 机 监视 器 和 其 他 在 虚拟 机 上 运行 的 应 用 实例 
的 资源 组 件 得 到 详细 性 能 数据 。 云 服务 供应 商 可 能 不 愿意 与 云 消费 者 分 享 性 能 / 质 
量 信息 的 细节 ， 原 因 包 括 : 
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。 保护 专 有 的 业务 信息 。 正 如 很 少 有 零售 商 自 愿 向 他 们 的 客户 和 竞争 对 手 公 
开 详 细 的 成 本 和 销售 数据 一 样 ， 云 服务 供应 商 通常 不 愿意 暴露 个 人 和 特定 
的 虚拟 机 实例 性 能 的 详细 数据 。 
最 大 限度 地 降低 SLA 责任 。 云 服务 提供 商 必须 知道 ， 只 有 云 消 费 者 明确 报 
告 性 能 损失 且 明 确 请 求 SLA 补救 措施 ， 架 构 性 能 (违反 了 SLA 所 约定 的 性 
能 要 求 ) 、 金 融 救济 措施 (例如 服务 信用 ) 才 有 可 能 被 触发 。 由 于 云 消费 
者 可 能 没有 意识 到 违反 SLA 事件 的 影响 和 持续 时 间 ， 主 动 提供 性 能 的 详细 
数据 就 可 能 触发 服务 提供 商 采 取 比 消费 者 所 请 求 的 更 大 的 补救 措施 。 
非 标 准 度量 。 因 为 虚拟 化 架构 故障 尚未 量化 成 行业 标准 ， 云 服务 提供 商 可 
用 的 度量 手段 很 可 能 只 是 基于 对 产品 特性 的 说 明 ， 因 此 可 能 很 难 整合 汇集 
成 有 关 性 能 的 清晰 准确 的 描述 ， 具 体 描 述 出 什么 性 能 被 实际 交付 给 单独 的 
虚拟 机 实例 。 例 如 ， 不 同 的 虚拟 机 监视 器 提供 商会 给 云 服务 提供 商 提供 不 
同 的 性 能 管理 数据 。 出 现 的 新 问题 就 是 ， 架 构 元 素 可 能 不 会 跟随 性 能 特征 
来 指定 云 消费 者 、 应 用 或 虚拟 机 实例 组 件 ， 因 此 ， 从 虚拟 机 实例 组 件 映射 
性 能 数据 回 到 单独 的 虚拟 机 实例 (指定 了 特定 的 云 消费 者 应 用 实例 ) 可 能 
会 很 困难 。 

因此 ， 云 服务 提供 商 可 能 无 法 定期 提供 足够 详尽 的 性 能 管理 数据 ， 使 云 消费 
者 准确 地 描述 虚拟 化 资源 的 真实 表现 ， 以 便 积极 地 实施 应 用 程序 性 能 管理 。 对 
于 云 用 户 和 它们 的 应 用 实例 ， 替 代 方 案 是 监测 虚拟 化 架构 资源 传递 给 每 个 虚拟 
机 实例 的 性 能 ， 同 时 监测 对 每 个 应 用 组 件 实例 进行 记录 和 分 析 的 其 他 性 能 管理 
数据 。 

理想 情况 下 ， 这 些 数 据 将 会 是 足够 丰富 ， 能 够 明确 区 分 应 用 服务 的 性 能 缺 
陷 。 这 些 缺 陷 是 由 于 云 服务 提供 商 的 虚拟 化 架构 ， 因 为 应 用 软件 组 件 实例 问题 或 
其 他 问题 ， 而 没有 达到 预期 的 性 能 要 求 。 一 旦 知道 了 服务 缺陷 的 根本 原因 ， 采 取 
适当 的 行动 来 纠正 缺陷 的 真正 根源 ， 从 而 使 该 应 用 更 强大 ， 足 以 应 对 未 来 的 故障 
事件 。 


14.2 云 消费 者 的 度量 选择 


云 消费 者 有 两 个 基本 选择 可 以 保证 云 服 务 提 供 商 给 他 们 的 应 用 组 件 实例 提供 可 
接受 的 架构 服务 性 能 。 

1) 依靠 (IaaS) 云 服务 提供 商 的 尽力 服务 。 云 消费 者 可 以 简单 地 信任 云 服 务 
提供 商会 真诚 地 尽 最 大 努力 提供 服务 ， 而 不 用 想 尽 办 法 地 去 度量 实际 传递 给 他 们 应 
用 软件 的 虚拟 资源 服务 。 简 而 言 之 ， 是 依靠 信任 而 不 需要 去 验证 云 服务 提供 商 。 

2) 加 强 能 够 度量 实际 架构 性 能 的 应 用 软件 。 复 杂 的 应 用 通常 配备 性 能 监控 机 
制 ， 该 机 制 被 耦合 到 管理 和 控制 架构 中 ， 这 样 能 实现 应 用 实例 的 外 部 可 视 化 和 可 控 
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性 。 此 功能 可 以 进一步 增强 ， 从 而 可 以 通过 实例 基础 应 用 软件 ， 直 接 或 间接 地 度量 
一 个 应 用 组 件 实 例 的 虚拟 机 和 可 视 化 架构 的 性 能 。 实 例 基础 应 用 软件 可 以 部 署 多 个 
度量 策略 : 


查询 虚拟 机 监视 器 和 架构 的 度量 方法 。 可 以 通过 虚拟 机 监视 器 和 /或 云 服务 
提供 商 提供 有 用 的 性 能 度量 数据 。 不 幸 的 是 ， 即 使 特定 的 性 能 数据 (连同 
访问 数据 的 编程 接口 ) ， 被 提供 给 应 用 和 云 消费 者 ， 但 这 些 性 能 数据 会 随 云 
服务 提供 商 以 及 虚拟 机 监视 器 的 不 同 而 不 同 。 

主动 服务 探测 。 应 用 或 中 间 件 软件 可 以 主动 探测 架构 的 性 能 ， 如 通过 在 应 
用 虚拟 机 实例 中 定期 执行 性 能 检测 基准 程序 (benchmark) 。 主 动 地 进行 服 
务 探测 应 该 进行 优化 配置 ， 以 便 其 增加 到 目标 应 用 的 工作 负载 不 会 太 大 ， 
这 样 探测 本 身 不 实质 性 地 影响 应 用 软件 享有 的 服务 性 能 。 例 如 ， 如 果 网 络 
吞吐 量 通过 运行 一 个 网 络 性 能 基准 程序 来 进行 主动 探测 ， 如 果 基 准 程序 大 
量 使 用 网 络 IO， 那么 同一 个 虚拟 机 实例 中 的 应 用 组 件 就 只 会 分 有 很 少 一 
部 分 网 络 容量 。 需 要 注意 的 是 ， 主 动 服务 探测 可 以 被 配置 成 当 应 用 本 身 空 
闲 或 轻 负载 时 再 运行 ， 从 而 减少 对 应 用 服务 的 影响 ， 但 是 这 可 能 不 能 精准 
的 表征 应 用 在 有 负载 时 架构 的 性 能 。 

回环 机 制 。 回 环 机 制 ( 见 图 14.2) 可 以 深入 了 解 虚拟 化 组 件 的 行为 ， 其 通 
过 度量 一 个 请 求实 际 到 达 目 标 虚 拟 whim “A” eee “SI” 
化 组 件 实例 的 延迟 ， 以 及 对 比 往返 i ts + eee 
延迟 和 连续 性 延迟 来 实现 。 通 过 回 ” 下 下 一 | | 回报 ____- 
环 机 制 ， 可 用 深入 了 解 虚拟 化 架构 

对 总 服务 延迟 和 服务 一 致 性 的 。 see 


影响 。 we 

最 小 侵入 (虚拟 机 实例 ) 监测 。 ‘ ae 
应 用 程序 、 中 间 件 和 /或 客户 操作 E 

系统 软件 可 以 进一步 增强 ， 从 而 可 

以 直接 或 间接 地 获知 交付 给 指定 组 图 14.2 回报 与 服务 延迟 


件 实例 的 虚拟 化 架构 的 性 能 。 例 

如 ， 时 钟 拌 动 事件 可 以 这 样 进行 度量 ， 即 把 常规 时 钟 事件 设置 成 计算 事件 
应 该 被 触发 的 时 间 和 事件 实际 触发 时 间 。 通 过 对 比 预期 和 实际 的 事件 发 生 
时 间 ， 可 以 获知 时 钟 事件 抖动 情况 。 

重新 利用 传统 的 度量 方式 。 传 统 的 操作 系统 ， 实 用 工具 和 应 用 程序 通常 为 
本 地 的 部 署 设计 了 丰富 的 性 能 度量 方法 。 尤 其 是 一 些 传统 的 度量 方法 可 以 
深入 了 解 虚拟 化 架构 的 真实 表现 。 因 为 虚拟 机 监视 器 可 以 有 效 地 屏蔽 客户 
操作 系统 的 全 部 虚拟 化 效果 ， 这 些 度量 方法 通常 不 能 得 到 直接 有 用 的 信息 ， 
所 以 谨慎 分 析 和 关联 传统 度量 方法 ， 可 能 才 会 有 用 。 
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14.3 缺陷 度量 策略 


在 第 4 章 已 经 给 出 度量 每 个 虚拟 化 架构 缺陷 的 策略 ， 本 节 分 别 讨论 : 

。 虚拟 机 故障 度量 (第 14. 3. 1 节 ) 

© 无 法 交付 的 虚拟 机 配置 容量 度量 (第 14. 3.2 节 ) 

© 交付 退化 的 虚拟 机 容量 度量 (B 14.3.37) 

。 尾部 延迟 度量 (第 14.3.4 节 ) 

。 时 钟 事件 抖动 度量 〈 第 14.3.5 WW) 

。 时 钟 漂移 度量 (第 14.3.6 节 ) 

© 失败 或 缓慢 的 虚拟 机 实例 分 配 和 局 动 度量 (第 14.3.7 节 ) 

性 能 管理 数据 通常 每 15min 记录 一 次 ， 虚 拟 化 架构 的 故障 数据 应 单独 记录 在 每 
个 虚拟 机 实例 上 。 减 少 实际 记录 的 性 能 管理 数据 是 非常 重要 的 ， 这 样 可 以 避免 有 竺 
分 析 和 存储 的 数据 量 大 规模 地 增加 。 


14.3.1 虚拟 机 故障 度量 


第 12. 4 节 “ 硬 件 可 靠 性 度量 演化 ”引入 了 虚拟 机 实例 可 靠 性 度量 中 的 概念 ， 
即 MTBF 和 FIT。 依 靠 失败 的 虚拟 机 实例 来 可 靠 地 记录 上 自身 故障 事件 是 不 可 行 的 ， 
复杂 的 应 用 通常 包括 监测 和 控制 机 制 。 该 机 制 可 以 用 于 配置 管理 系统 的 高 可 用 性 ， 
完成 各 种 操作 ， 以 及 对 各 组 件 实例 的 管理 ， 并 且 这 个 机 制 通常 用 于 监视 应 用 组 件 的 
运行 状况 。 应 用 的 监视 和 控制 组 件 与 单一 的 应 用 组 件 之 间 交 换 的 心跳 信息 ， 不 能 可 
靠 地 表征 虚拟 机 实例 的 故障 率 ， 因 为 应 用 或 客户 操作 系统 软件 的 严重 故障 可 以 阻止 
正确 心跳 消息 的 获取 。 在 考虑 准确 识别 虚拟 机 故障 事件 时 ， 必 须 排除 这 些 因 素 。 虚 
拟 机 故障 可 以 从 无 法 交付 的 虚拟 机 配置 容量 事件 来 加 以 区 分 ， 例 如 通过 适当 配置 定 
时 器 和 最 大 重 试 心跳 次 数 ， 完 成 虚拟 机 实例 的 动态 迁移 。 灾 难 性 的 应 用 操作 系统 软 
件 故 障 ， 可 以 从 底层 虚拟 机 故障 进行 推断 : 

1) 在 正常 关闭 虚拟 机 之 前 ， 要 求 应 用 实例 明确 有 序 地 记录 请 求 虚拟 机 终止 的 
请 求 事件 。 

2) 探测 虚拟 机 实例 操作 系统 的 可 用 性 (例如 通过 ping 命令 ) 。 

3) 通过 云 服 务 提供 商 提供 的 机 制 (如 API) ， 检 查 托管 无 应 答应 用 组 件 实例 的 
虚拟 机 实例 的 状态 ， 以 确认 是 否 虚拟 机 实例 是 可 以 运行 的 。 

应 用 通常 会 希望 单个 虚拟 机 实例 可 以 保持 几 个 小 时 ， 几 天 ， 几 周 甚 至 更 长 的 时 
间 ， 因 此 ， 虚 拟 机 不 成 熟 的 版 本 发 布 率 必须 包括 一 个 时 间 组 件 ， 来 获得 任意 一 个 虚 
拟 机 在 一 个 固定 时 间 周 期 内 持续 交付 可 接受 服务 的 概率 。 硬 件 故障 率 历 来 被 归 一 化 
为 10"h 内 的 故障 数 (又 名 FIT) ， 所 以 这 里 建议 虚拟 机 故障 率 被 归 一 化 为 10”h 内 不 
成 熟 的 虚拟 机 版 本 数 ( 即 VM FIT)。 式 (14.1) 给 出 了 如 何 计算 VM FIT: 
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VM FITs = NumPremature V MReleases x 10? (14. 1) 


Hours V MInServiceTime 
e NumPrematureVMReleases 是 虚拟 机 故障 或 异常 中 断 的 总 数 ， 不 包括 在 第 4. 2 
廿 “虚拟 机 故障 ”中 给 出 的 三 个 正 稼 触发 融 所 触发 的 中 断 。 为 了 读者 方便 
起 见 ， 这 里 再 重复 说 明 一 下 : 
1) 由 云 消 费 者 提交 的 明确 请 求 (例如 通过 目 助 服务 GU 发 出 的 请 求 ) 
2) 由 应 用 程序 实例 目 身 提交 的 明确 “关机 ”请 求 。 
3) 由 laas 提供 商 基于 预先 制定 的 策略 而 明确 执行 的 指令 ， 如 不 文 付 账单 或 者 
执行 合法 的 终止 命令 。 
。 HoursVMInServiceTime 是 在 整个 度量 周期 中 虚拟 机 实例 处 在 服务 状态 中 的 总 
时 间 。 名 义 上 ， 虚 拟 机 “处 在 服务 中 ”的 时 间 起 始 于 虚拟 机 配置 和 初始 化 
稳定 后 ， 但 也 可 以 提前 到 接收 到 该 虚拟 机 分 配 请 求 的 时 刻 开 始 。 虚 拟 机 实 
例 暂 停 的 时 间 不 会 被 计算 到 “处 在 服务 中 ”的 时 间 ， 因 为 这 时 虚拟 机 是 没 
有 执行 的 ， 因 此 不 应 该 很 容易 受到 破坏 。 
FIT 可 以 通过 式 (14.2) 很 容易 地 转化 为 以 小 时 为 单位 的 平均 故障 间隔 时 间 
(MTBF) ; 
_ 10 
VM_FITs 





MTBF icin 
该 指标 每 个 月 都 应 该 进行 计算 。 
14.3.2 无 法 交付 的 虚拟 机 配置 容量 度量 


如 果 虚 拟 机 CPU 容量 未 能 交付 ， 可 以 通过 像 jHiccup [ jHiccup] 这 类 工具 来 进 
行 度量 。 比 较 高 频 定 期 事件 的 时 间 戳 ， 可 以 让 应 用 很 容易 隔离 虚拟 机 没有 运行 的 时 
间 间 隙 。 网 络 容量 未 交付 问题 可 以 通过 比较 输出 队列 与 发 送 数据 的 统计 结果 来 度 
量 。 队 列 深度 的 增加 而 没有 相应 地 增加 发 送 的 比特 位 ， 或 许 就 是 一 个 网 络 未 送 达 状 
态 的 指标 。 如 果 队 列 和 IO 的 统计 数据 可 用 于 存储 设备 ， 那 么 类 似 的 技术 就 可 以 应 
用 到 存储 领域 。 


14.3.3 交付 退化 的 虚拟 机 容量 度量 


对 资源 容量 不 足 问 题 的 查 觉 是 很 难 的 ， 因 为 虚拟 机 管理 帮会 明确 地 让 虚拟 机 实 
例 相信 它们 对 底层 物理 资源 有 完全 的 使 用 权 。 当 提供 的 负载 容量 保持 稳定 时 ， 增 长 
的 工作 队列 表明 虚拟 化 架构 所 能 提供 的 资源 容量 越 来 越 少 。 同 样 地 ，IP 包 的 重 传 
或 丢失 意味 着 云 网 络 架 构 也 许 遭 遇 拥 塞 并 因此 数据 包 被 丢弃 。 分 析 客 户 操 作 系 统 或 
虚拟 机 管理 器 的 性 能 计数 器 ， 可 以 深入 洞察 云 服 务 提供 商 交 付 的 架构 服务 质量 。 


14.3.4 尾部 延迟 度量 
正如 在 4.1 节 所 讨论 的 ， 虚拟 化 和 云 架构 事实 上 受制 于 较 长 的 对 资源 访问 


(14. 2) 
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(如 CPU) 的 尾部 延迟 ， 从 而 导致 用 户 服务 的 响应 时 间 存 在 严重 尾部 延迟 。 在 应 用 
程序 面向 资源 服务 边界 ， 应 用 可 以 间接 地 度量 应 用 服务 资源 到 架构 延迟 〈 如 磁盘 
1/0 延迟 ) 的 均值 和 方差 。 传 统 的 监控 和 表征 服务 延迟 的 方式 是 建立 延迟 性 能 互补 
累计 分 布 消 数 (CCDF) 或 直方 图 〈 见 第 2.5.2.2 节 )。 通 过 直方 图 或 CCDF 可 以 
对 延迟 行为 进行 深入 解析 ， 它 们 为 每 个 被 追踪 的 延迟 度量 指标 ， 在 每 个 度量 间 隅 建 
立 10 个 ，20 个 或 更 多 组 度量 点 。 确 定 度量 点 的 最 佳 尺 寸 会 不 得 不 面 对 一 个 更 大 的 
挑 成 ， 即 实际 行为 过 于 复杂 以 致 很 难 提前 配置 。 原 因 已 在 第 4.1 市 “服务 延迟 ， 
虚拟 化 和 云 计算 ”中 话 述 。 云 计算 使 延迟 有 更 多 的 不 确定 性 ， 所 以 定期 地 监视 延 
述 ( 例 如， 每 5min 或 15min)， 记录 结 果 并 进行 离线 分 析 是 非常 重要 的 。 不 幸 的 
是 ， 直 方 图 通常 需要 相当 大 的 数据 组 。 然 而 幸运 地 是 ,延迟 可 以 用 平均 延迟 (如 
平均 延迟 时 间 ) 和 一 些 方差 ( 如 延迟 平方 的 平均 值 的 平方 根 ) 来 表征 。 一 阶 统计 
E (平均 延迟 时 间 ) 和 二 阶 统 计量 (延迟 平方 的 平均 值 的 平方 根 ) 简洁 地 表征 了 
服务 延迟 性 能 ， 包 括 尾 部 延迟 。 为 了 优化 ， 经 常 可 以 采用 抽样 方法 〈 例 如 ， 每 隔 N 
个 样本 度量 和 记录 一 次 ) ， 以 减少 度量 开销 的 增加 。 


14.3.5 时钟 事件 抖动 度量 


实时 应 用 通常 依赖 于 时 钟 事件 中 断 来 周期 性 地 进行 时 间 同 步 ， 例 如 用 于 视频 会 
议 的 交互 式 流 媒体 。 通 常 ， 这 些 应 用 会 包括 实时 组 件 ， 实 时 组 件 依 赖 于 定时 器 每 隔 
儿 副 秒 产 生 的 时 间 中 断 ， 从 而 确保 流量 能 够 在 延迟 允许 范围 内 迅速 地 交付 给 应 用 。 
在 这 种 情况 下 ， 可 以 度量 每 个 时 钟 事件 从 被 触发 开始 到 定时 器 服务 例 程 实际 执行 完 
毕 的 时 间 的 平均 值 和 方差 值 。 时 钟 事件 的 抖动 ， 也 可 以 使 用 软件 进行 度量 ， 软 件 只 
需要 周期 性 触发 事件 ， 并 度量 响应 延迟 ， 类 似 的 如 RealFeel (http;//elinux. org/Re- 


altime_Testing_Best_Practices#RealFeel ) 。 
14.3.6 ”时钟 漂移 度量 


从 概念 上 讲 ， 在 虚拟 机 中 实例 的 时 钟 漂移 是 很 容易 通过 度量 虚拟 机 时 钟 与 基准 
时 钟 (例如 time. nist. gov) 重新 同步 的 周期 性 校正 时 间 来 获得 ， 例 如 比较 普遍 的 网 
络 时 间 协 议 [NTP RFC 5905] 或 精密 时 间 协 议 [PTP IEEE 1588 ] 。 时 间 同 步 程 序 ， 
如 NTP 守护 进程 ， 可 以 配置 成 对 它们 的 时 钟 调节 操作 进行 记录 。 分 析 这 些 调 节 记 
录 ， 可 以 了 解 每 个 虚拟 机 实例 的 时 钟 驱动 的 性 质 和 幅度 。 


14.3.7 失败 或 缓慢 的 虚拟 机 实例 分 配 和 启动 度量 
从 被 分 配 和 局 动 的 虚拟 机 实例 自身 是 不 可 能 了 解 它 的 分 配 和 启动 是 缓慢 或 者 是 
有 错误 的 ， 必 须 通 过 其 他 实例 来 进行 监测 ， 比 如 已 经 运行 的 虚拟 机 实例 。 如 果 应 用 


的 监视 和 控制 组 件 明确 地 为 应 用 的 启动 和 容量 增长 进行 虚拟 机 实例 分 配 操作 ， 那 么 
监测 和 控制 组 件 可 以 度量 虚拟 机 实例 的 分 配 和 启动 的 响应 延迟 和 状态 。 对 于 每 个 虚 
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拟 机 的 分 配 请 求 ， 至 少 记 录 以 下 细节 信息 是 非常 有 用 的 : 

e 分 配 请 求 的 时 间 ; 

。 被 请 求 的 虚拟 机 的 特征 (如 CPU 的 数量 和 分 配 到 的 RAM) ; 

e 分 配 啊 应 时 间 ; 

© 分 配 请 求 的 最 终 状 态 〈 如 成 功 或 者 返回 错误 码 ) 。 

每 个 虚拟 机 分 配 请 求 应 该 记录 这 些 信 息 ， 它 可 以 离线 分 析 从 而 了 解 laas 性 能 
的 整体 特征 。 


14.3.8 度量 总 结 


严重 的 架构 缺陷 ， 如 许多 虚拟 机 实例 同时 出 现 故 障 ， 可 能 会 相对 比较 容易 诊 
断 ， 缓 慢 的 用 户 服 务 质量 缺陷 (造成 在 每 百 个 、 千 个 或 者 更 多 的 事务 或 会 话 中 有 
几 个 事务 或 者 会 话 失败 ) ， 通 常 很 难 发 现 真 正 的 问题 根源 。 对 虚拟 化 架构 性 能 的 适 
当 监 控 可 以 帮助 确定 用 户 的 服务 质量 缺陷 是 否 归属 于 应 用 程序 、 虚 拟 化 染 构 、 终 端 
到 终端 网 络 ， 或 是 这 些 或 其 他 因素 的 组 合 。 

图 14. 3 展示 了 对 云 消费 者 架构 缺陷 进行 度量 的 策略 : 



















云 OSS 监 视 器 : 
。VM 错 误 率 

。 应 用 程序 YM 实 
例 的 故障 或 迟缓 


应 用 程序 的 监控 以 及 控制 组 件 
监控 器 : 





。VM 错 误 率 
*。VM 实 例 的 故障 或 迟缓 分 配 与 
启动 





每 个 VM 实例 监视 器 : 
* 配 置 的 VM 容量 无 法 









交付 

。 交 付 退化 的 VM 容量 
“关键 事务 的 延迟 变化 
和 时 钟 事件 

© Hy Ph in 

“时 钟 抖动 










图 14.3 简化 的 度量 架构 


。 应 用 的 虚拟 机 实例 软件 监测 : 无 法 交付 的 虚拟 机 配置 容量 ; 交付 退化 的 虚 
拟 机 容量 ; 尾部 延迟 ;时钟 事件 抖动 和 时 钟 深 移 。 

。 应 用 的 管理 和 控制 功能 监测 : 虚拟 机 故障 率 ; 虚拟 机 实例 局 动 和 分 配 操作 
故障 或 缓慢 。 

。 云 0SS 监测 : 虚拟 机 故障 率 ; 虚拟 机 实例 启动 和 分 配 操作 故障 或 缓慢 ; 其 
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他 架构 和 技术 组 件 故 障 和 服务 缺陷 。 
可 以 配置 阐 值 警报 ， 当 架构 的 性 能 低 于 特定 的 目标 立 值 时 ， 提 醒 云 消费 者 ， 而 
且 这 些 数据 可 以 积累 几 天 ， 几 个 星期 和 几 个 月 来 分 析 Iaas 服务 质量 。 


14.4 ”管理 虚拟 化 架构 缺陷 


如 果 虚 拟 化 基础 架构 的 性 能 低 于 预期 ， 那 么 云 计算 消费 者 可 以 通过 技术 和 商业 
结合 来 减轻 受到 的 损失 。 能 够 短期 缓解 架构 性 能 欠 佳 的 技术 包括 以 下 一 种 或 
几 种 : 

。 最 小 化 应 用 程序 对 架构 缺陷 的 敏感 度 (第 14. 4. 1 节 ) 

。 虚拟 机 级 拥塞 检测 与 控制 (第 14.4.2 节 ); 

。 分配 更 多 虚拟 资源 容量 (第 14.4.3 节 ); 

。 终 止 性 能 欠 佳 的 虚拟 机 实例 (第 14.4.4 节 )。 

慢性 架构 服务 缺陷 可 能 需要 非 技术 方式 来 缓解 ， 例 如 : 

。 接 受 性 能 退化 (第 14.4.5 节 ); 

。 积极 主动 的 供应 商 管理 (第 14.4.6 节 ); 

。 重新 设 定 最 终 用 户 服务 质量 期 望 (第 14.4.7 节 ); 

© SLA 注意 事项 (38 14.4.8 节 ) ; 

。 更换 云 服务 提供 商 (第 14.4.9 节 )。 


14.4.1 最 小 化 应 用 程序 对 架构 缺陷 的 敏感 度 


认识 到 虚拟 化 架构 很 容易 发 生 服务 故障 ， 超 出 了 在 本 地 硬件 上 的 应 用 体验 ， 所 
以 架构 师 应 该 在 设计 他 们 的 应 用 时 ， 最 大 限度 地 降低 应 用 对 架构 缺陷 的 敏感 度 。 
laaS 缺陷 影响 分 析 ( 见 第 15. 2 节 ) 应 该 能 完全 表征 敏感 度 ， 利 用 该 敏感 度 可 以 在 
架构 上 进行 缓解 或 为 虚拟 化 架构 服务 设 定 最 低 性 能 期 望 。 一 些 缓 解 措施 非常 简单 ， 
通过 调整 配置 参数 ， 来 忍受 更 大 范围 架构 性 能 波动 ， 例 如 扩大 故障 /报警 事件 的 时 
间 窗 口 。 更 深远 的 架构 改变 ， 如 部 署 并 发 元 余 (参见 第 5.5 节 “ 顺 序 元 余 和 并 发 
见 余 ”) ， 要 求 从 根本 上 减少 应 用 对 架构 故障 的 敏感 度 。 


14.4.2 ”虚拟 机 级 拥塞 检测 与 控制 


相 比 传统 上 的 本 地 部 署 ， 云 部 署 引 入 了 更 多 性 能 可 变性 。 本 地 部 署 的 应 用 组 件 
有 相对 一 致 的 性 能 表现 ， 可 以 使 应 用 能 够 在 某 些 样本 点 上 度量 负载 水 平 ， 然 后 估计 
所 有 应 用 组 件 的 负载 水 平 。 云 计算 可 能 非常 不 同 ， 因 为 即使 应 用 统一 为 各 个 组 件 实 
例 分 配 负 载 ， 云 服务 提供 商 也 不 会 为 每 个 托管 这 些 应 用 组 件 的 虚拟 机 实例 统一 调度 
虚拟 化 计算 资源 、 内 存 、 存 储 和 网 络 资源 ， 所 以 这 些 应 用 组 件 实例 的 吞吐 量 和 应 用 
服务 的 性 能 可 能 会 有 显著 的 差异 。 因 此 ， 拥 塞 控制 必须 分 别 地 评估 每 个 应 用 虚拟 机 
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实例 的 吞吐 量 和 积压 量 。 我 们 都 知道 ， 一 个 虚拟 机 实例 拥塞 应 该 引起 应 用 组 件 激活 
拥塞 控制 机 制 ， 触 发 应 用 或 者 解决 机 制 来 转移 工作 量 到 一 个 或 者 多 个 包含 高 质量 备 
用 架构 容量 的 组 件 或 应 用 实例 上 。 如 第 6 章 中 所 讨论 的 ， 代 理 负 载 均 衡器 可 以 有 效 
地 通过 服务 组 件 池 分 配 工作 量 ， 这 样 可 以 有 效 地 缓解 虚拟 化 架构 缺陷 。 非 代理 负载 
均衡 项 〈 例 如 DNS) 经 常 被 用 来 分 发 跨 应 用 组 件 的 工作 量 ， 但 非 代 理 机 制 不 提供 
与 代理 负载 均衡 器 相同 程度 的 性 能 监控 和 负载 分 发 控制 ， 因 为 它们 不 处 在 服务 交付 
的 关键 路 径 上 。 


14.4.3 “分配 更 多 虚拟 资源 容量 


如 果 虚 拟 化 资源 分 配给 一 个 或 多 个 应 用 组 件 实例 是 不 可 接受 的 ， 那 么 应 用 可 以 
水 平地 扩展 另 一 个 应 用 组 件 实例 ， 通 过 一 个 很 大 的 由 较 差 性 能 的 虚拟 机 实例 组 成 的 
资源 池 来 完成 工作 ， 同 时 提供 可 接受 的 服务 质量 。 如 果 该 应 用 实例 是 处 在 或 接近 最 
大 设计 容量 ,或 者 架构 缺陷 影响 了 多 个 应 用 组 件 ， 则 应 用 可 以 扩展 一 个 新 的 程序 实 
例 ， 用 来 作为 男 一 个 可 用 的 分 区 或 数据 中 心 。 


14.4.4 终止 性 能 欠 佳 的 虚拟 机 实例 


如 果 一 个 虚拟 机 实例 持续 一 段 时 间 都 只 能 提供 不 可 接受 的 服务 ， 那 么 可 以 适当 
简单 地 终止 性 能 欠 佳 的 虚拟 机 实例 ， 可 以 依靠 应 用 的 高 可 用 性 机 制 来 恢复 对 用 户 的 
服务 影响 。 需 要 注意 的 是 ， 当 架构 缺陷 不 能 简单 地 隔离 到 独立 的 虚拟 机 实例 时 ， 终 
止 虚拟 机 实例 是 不 合适 的 。 毕 竟 ， 更 大 范围 的 架构 故障 事件 导致 的 更 大 可 能 性 是 : 
用 于 恢复 服务 的 宛 余 虚 拟 机 组 件 实例 同样 也 受到 故障 影响 。 


14.4.5 接受 性 能 退化 


在 某 些 情况 下 ， 最 终 用 户 将 暂时 接受 退化 的 应 用 服务 质量 。 例 如 ， 如 果 是 由 于 
灾难 事件 或 其 他 外 部 事件 ， 应 用 的 服务 质量 被 降低 了 ， 超 出 了 云 消 费 者 的 合理 控制 
范围 ， 那 么 ， 客 户 可 能 不 会 质疑 云 消费 者 作为 高 质量 应 用 服务 供应 商 的 信誉。 


14.4.6 积极 主动 的 供应 商 管理 


云 消 费 者 可 以 与 它们 的 云 服务 提供 商 合作 以 了 解 最 让 人 头痛 的 架构 缺陷 ， 并 为 
服务 提供 商 提供 必要 的 数据 以 协助 找到 导致 缺陷 的 真正 原因 ， 同 时 确保 适当 的 纠正 
措施 被 及 时 部 署 。 


14.4.7 重新 设 定 最 终 用 户 服 务 质 量 期 望 


如 果 虚 拟 化 架构 缺陷 影响 到 了 实现 最 终 用 户 所 期 望 的 服务 质量 的 可 行 性 和 可 能 
性 ， 那 么 云 消费 者 可 以 尝试 降低 最 终 用户 的 期 望 。 服 务 质量 的 期 望 通常 是 某 一 品牌 
产品 或 服务 体验 的 核心 属性 ， 重 置 该 品牌 的 期 望 到 较 低 的 水 平 可 能 是 应 当 慎重 管理 
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的 复杂 的 商务 问题 。 
14.4.8 SLA 注意 事项 


如 果 云 消费 与 云 服务 提供 商 有 架构 服务 质量 SLA 约定 服务 水 平 协 议 ) ， 那 么 
经 济 或 非 经 济 的 补救 措施 可 能 作为 对 性 能 缺陷 的 补偿 。 通 常 ， 这 些 SLA 是 以 适度 
的 服务 信用 的 形式 存在 例如， 对 于 云 消费 者 未 能 交付 可 接受 服务 质量 的 信用 成 
AS) ， 因 此 可 能 不 包括 经 济 和 非 经 济 形式 的 补救 措施 的 成 本 ， 云 消费 者 有 义务 通过 
SLA 将 补救 措施 提供 给 最 终 用 户 。 毕 竞 不 像 保 险 产 品 ，SLA 并 不 意味 着 每 个 故障 事 
件 都 要 将 “全 部 ”消费 者 都 包括 进来 。 


14.4.9 更换 云 服务 提供 商 


对 于 不 可 接受 的 虚拟 化 架构 的 性 能 表现 ， 最 终 的 商业 缓解 办 法 就 是 更 换 云 服务 
提供 商 。 云 消费 者 应 要 求 ， 如 果 服 务 提供 商 交 付 的 架构 的 性 能 未 能 达到 指定 的 服务 
水 平 ， 那 么 与 云 服 务 提供 商 的 合同 应 该 包括 可 以 让 他 们 选择 提前 终止 与 云 服 务 供应 
商 的 合同 关系 。 云 消费 者 更 换 云 服务 提供 商 通 常 是 一 个 昂贵 和 耗 时 的 事情 ， 明 智 的 
做 法 是 认真 研究 潜在 的 服务 提供 商 ， 并 且 选 择 最 有 可 能 持续 提供 可 接受 的 架构 服务 
质量 的 服务 提供 商 。 需 要 注意 的 是 ， 使 用 标准 的 而 不 是 专 有 的 云 接口 和 服务 ， 将 使 
企业 更 容易 更 换 云 服务 提供 商 ， 从 而 使 更 换 云 服务 提供 商 的 决定 更 加 可 行 。 


第 15 te ”基于 云 的 应 用 程序 分 析 


为 关键 应 用 进行 可 靠 性 设计 ， 包括 采用 可 靠 性 框图 ( RBD)、 故 障 模式 影响 分 
Hr (FMEA) 、 单 点 故障 分 析 ， 以 及 基于 架构 的 可 用 性 (停机) 建 模 。 正 如 在 第 4 
章 “ 虚 拟 化 架构 故障 ”中 所 讨论 的 ， 以 及 在 整个 第 卫 部 分 “分 析 ” 中 所 展示 的 虚 
拟 化 和 云 部 署 对 应 用 服务 质量 的 新 挑战 ， 因 此 ， 在 进行 可 靠 性 设计 时 ， 必 要 确保 应 
用 程序 架构 可 以 减轻 这 些 新 挑战 带 来 的 对 用 户 服务 的 影响 。 本 章 提 供 了 以 下 分 析 方 
法 来 考虑 当 应 用 被 部 署 在 虚拟 化 的 云 平台 上 时 的 情况 : 

。 可 靠 性 框图 和 参照 分 析 (第 15.1 节 ) ; 
Iaas 缺陷 影响 分 析 (第 15.2 市 ); 
PaaS 故障 影响 分 析 (第 15.3 节 ) ; 
工作 负载 分 配 分 析 (第 15.4 节 ); 
反 关 联 性 分 析 〈 第 15.5 7); 
弹性 分 析 (第 15.6 7); - 
发 布 管理 影响 效应 分 析 (第 15.7 节 ) ; 
恢复 点 目标 分 析 (第 15. 8 节 ) ; 
e 恢复 时 间 目 标 分 析 (第 15.9 节 )。 


15.1 可 靠 性 框图 和 参照 分 析 


可 徘 性 框图 (RBD) 是 一 种 用 来 分 析 应 用 的 服务 可 靠 性 风险 和 见 余 缓解 效果 
的 非常 便捷 实用 的 技术 。 新 的 云 应 用 的 可 徘 性 框图 可 以 重新 创建 ， 当 改进 现 有 应 用 
或 者 构建 新 的 应 用 ( RBD 会 在 云 上 和 本 地 硬件 上 均 运 行 ) 时 ， 进 行 本 地 (传统) 
部 署 和 云 部 署 的 参照 分 析 是 很 有 用 的 。 正 如 在 第 12 革 “ 服 务 可 用 性 度量 ”中 所 讨 
论 的 ， 参照 分 析 开 始 于 本 地 (传统 ) 部 署 和 云 部 署 的 可 靠 性 框图 ， 这 些 框图 实际 
上 并 列 放 在 一 起 ， 如 图 15. 1 所 示 ' (或 见 图 12.8) 。 任 何 存在 于 一 个 RBD 中 而 不 在 
男 外 一 个 RBD 中 的 组 件 ， 或 者 在 RBD 中 存在 差异 的 组 件 ， 都 会 加 以 说 明 。 应 用 的 
云 部 署 架构 实际 上 可 能 与 传统 架构 是 完全 不 同 的 ， 尤 其 是 在 “技术 组 件 即 服务 ” 
或 其 他 云 中 心 架 构 被 使 用 的 时 候 。 然 而 ， 当 分 析 服 务 风险 、 设 定性 能 目标 时 ， 一 个 
传统 部 署 和 云 部 署 的 参照 比较 是 非常 有 用 的 。 

如 果 将 PaaS 的 技术 组 件 取 代 传 统 组 件 ， 那 么 它 会 在 参照 分 析 中 突出 显示 ， 例 
如 在 图 15. 1 中 ， 传 统 部 署 中 的 常规 机 柜 式 模块 组 件 在 逻辑 上 被 云 部 署 的 “连接 即 
服务 ”所 取代 。 如 果 云 部 署 和 传统 部 署 在 功能 支持 上 进行 比较 时 存在 差异 〈 因 为 
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图 15.1 并 行 可 靠 性 框图 示例 


相对 于 本 地 技术 组 件 ， 更 多 功能 的 Paas 技术 组 件 被 应 用 在 云 部 署 中 ) ， 那 么 也 会 突 
出 显示 。 

由 于 基于 架构 的 服务 可 用 性 模型 通常 结合 可 靠 性 框图 ， 所 以 对 该 模型 的 架构 进 
行 RBD 参照 分 析 应 该 是 很 简单 的 。 这 里 , 给 出 一 个 从 基于 架构 的 数学 模型 中 得 来 
的 参照 服务 可 用 性 预测 ， 可 以 用 于 为 每 一 个 应 用 模块 和 技术 组 件 进行 宕 机 目标 和 预 
算 的 参照 分 析 。 单 个 技术 组 件 的 中 断 预算 (如 在 第 12. 3.2 节 “ 技 术 组 件 ” 中 所 讨 
论 的 “数据 库 即 服务 ”) 在 选择 一 个 PaaS 供应 商 时 可 以 用 于 设置 需求 。 


15.2 Iaas 缺陷 影响 分 析 


应 用 团队 和 决策 制定 者 应 该 关心 的 最 根本 的 服务 质量 问题 是 : 云 架 构 上 部 署 的 

应 用 是 否 能 始终 如 一 的 满足 服务 质量 需求 。“ 架 构 即 服务 ”的 影响 分 析 (IEA) 对 
实现 应 用 服务 质量 需求 的 质量 风险 进行 识别 。 这 方面 的 认 知 可 以 使 应 用 团队 和 决策 
者 采取 行动 ， 以 减轻 已 确定 的 风险 。 从 逻辑 上 讲 ， 这 一 分 析 是 一 个 矩阵 ， 在 该 矩阵 
中 ， 应 用 的 关键 服务 质量 指标 (第 2.5 节 “ 应 用 程序 服务 质量 指标 ” ) 作为 行 ， 虚 
拟 化 架构 缺陷 ( 见 第 4 章 ) 作为 列 ， 其 中 的 单元 格 显示 应 用 的 敏感 度 。 在 设计 中 
确定 了 最 敏感 的 节点 后 ， 设 计 师 可 以 专注 于 应 用 上 的 补救 措施 〈 如 改进 宛 余 设 置 
及 重 传 / 重 试 策略 ) 和 架构 上 的 补救 措施 (如 对 laas 供应 商 的 评估 、laas 性 能 监 
控 ， 以 及 对 Iaas 供应 商 进行 积极 的 管理 ) 。 

IEA 方法 步骤 如 下 : 

1) 列举 可 用 的 应 用 服务 质量 指标 
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在 这 里 ， 列 举 出 了 目标 应 用 程序 的 具体 可 行 的 服务 质量 指标 。 在 许多 情况 下 ， 
这 些 指标 的 部 分 或 全 部 被 直接 或 间接 的 包含 在 应 用 服务 供应 商 的 质量 性 能 度量 中 ， 
甚至 包含 在 影响 管理 层 和 员工 奖金 的 服务 性 能 度量 中 。 这 些 度量 也 可 能 出 现在 应 用 
服务 提供 商 的 RFP 和 对 客户 的 服务 水 平 协议 SLA 中 。 在 第 2.5 节 “ 应 用 程序 服务 
质量 指标 ”中 ， 给 出 了 通用 的 服务 质量 度量 : 

。 服务 可 用 性 (第 2.5.1 45); 
服务 延迟 (第 2.5.2 节 ); 
服务 可 靠 性 (第 2.5.3 节 ) ; 
服务 可 访问 性 (第 2.5.4 节 ); 
服务 可 维持 性 (第 2.5.5 节 ); 

。 服务 吞吐 量 (第 2.5.6 节 ); 

。 服务 时 间 戳 精度 (第 2.5.7 节 )。 

需要 注意 的 是 ， 应 用 的 类 别 和 行业 ， 往 往 会 对 服务 质量 测试 进行 定制 (通常 是 
使 用 或 修改 一 个 或 多 个 前 面 介 绍 的 服务 质量 度量 ) 。 例 如 ， 电 信行 业 把 失败 的 呼叫 学 
试 作为 主要 服务 可 访问 性 指标 ， 以 及 把 通话 掉 线 率 作为 主要 服务 可 维持 性 指标 。 

2) 基于 服务 质量 指标 特征 化 虚拟 架构 缺陷 的 灵敏 度 。 单 独 考虑 对 每 个 应 用 服 
务 测试 可 能 的 影响 ， 应 该 从 虚拟 化 架构 缺陷 〈 第 4 章 “ 虚 拟 化 架构 缺陷 ") 的 第 1 
步 开始 考虑 : 

。 虚拟 机 故障 (第 4.2 45); 

无 法 交付 的 虚拟 机 配置 容量 (第 4.3 节 ); 
交付 退化 的 虚拟 机 容量 (48 4.4 45) ; 
尾部 延迟 (第 4.5 节 ); 

时 钟 事件 抖动 (第 4.6 节 ); 

时 钟 漂移 (第 4.7 节 ); 

。 失败 或 缓慢 的 虚拟 机 实例 分 配 和 启动 (第 4.8 节 )。 

操作 上 ， 我 们 可 以 考虑 每 个 虚拟 化 架构 缺陷 对 应 用 使 用 的 虚拟 机 实例 的 类 型 的 
影响 〈 如 前 端 组 件 ， 后 端 组 件 ， 以 及 管理 和 控制 组 件 ) 。 一 些 虚拟 架构 故障 可 能 只 
有 微不足道 的 影响 (如 时 钟 飘移 对 不 使 用 时 间 惟 的 应 用 组 件 是 不 重要 的 ) ， 其 他 故 
障 (如 无 法 按 配置 交付 虚拟 机 容量 ) 对 应 用 服务 质量 可 能 会 有 复杂 的 影响 。 需 要 
注意 的 是 ， 这 里 我 们 着 重 描述 对 用 户 服 务 的 影响 ， 对 应 用 服务 的 影响 进行 排序 和 分 
类 则 是 下 一 步 的 工作 。 

3) 总 结 架构 缺陷 的 影响 

第 2 步 详细 描述 了 由 laas 服务 故障 引起 的 对 用 户 预 期 服务 的 影响 。 需 要 注意 
的 是 ， 这 些 影响 可 能 是 非 线 性 的 ， 例 如 当 “ 无 法 交付 的 虚拟 机 配置 容量 ”问题 持 
续 时 间 很 久 ， 客 户 端 重 试 机 制 将 超时 ， 然 后 会 返回 一 个 故障 指示 给 客户 端 。 服 务 脆 
弱 性 评估 是 指 当 目标 架构 能 够 提供 最 低 限 度 可 接受 的 服务 ( 即 最 大 化 可 接受 的 架 
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构 故障 ) 的 情况 下 ， 应 用 的 目标 服务 质量 需求 不 会 持续 得 到 满足 的 可 能 性 。 高 脆 
蚤 性 意味 春 当 以 构 受 损 时 ， 应 用 的 服务 质量 需求 不 太 可 能 被 满足 。 为 了 让 应 用 团队 
和 决策 者 从 第 2 步 得 到 的 复杂 结果 中 理解 风险 以 及 纠正 措施 的 优先 级 ， 影 响 可 以 被 
归 类 总 结 为 颜色 编码 热点 图 ， 其 中 应 用 服务 指标 作为 行 ， 虚 拟 化 架构 缺陷 作为 列 ， 
单元 格 则 依据 风险 进行 着 色 : 

。 高 风险 (红色 )， 应 用 服务 质量 指标 非常 容易 受到 IaaS 服务 缺陷 的 影响 ; 

。 中 每 风险 (黄色 )， 应 用 服务 质量 需求 比较 容易 受到 IaaS 服务 缺陷 的 影响 ; 

© 低 风 险 (绿色 )， 应 用 服务 质量 需求 不 会 受到 Iaas 服务 缺陷 的 影响 

4) 大 规模 检测 。 如 果 验 证 机 制 存在 ， 那 么 当 应 用 被 扩大 到 最 高 配置 时 ， 知 缺 
陷 只 影响 单个 虚拟 机 实例 ， 那 么 出 现 故障 的 虚拟 机 实例 就 可 以 被 迅速 识别 出 来 。 

5) 推荐 补救 措施 。 项 目 团队 和 决策 者 应 该 认真 考虑 将 高 风险 ( 高度 脆 弱 ) 和 
中 等 风险 (有 点 脆弱 ) 转化 为 低 风 险 (不 脆弱 ) 的 补救 措施 。 项 目 团队 可 以 创建 
一 个 特殊 计划 ， 这 个 计划 可 能 映射 每 一 个 推荐 措施 到 相应 的 应 用 中 去 使 用 。 

需要 注意 的 是 ， 当 计划 的 应 用 服务 质量 、 可 靠 性 和 延迟 测试 用 例 ， 被 用 在 最 脆 
弱 的 架构 〈 如 步骤 3 中 的 高 风险 /红色 、 中 等 风险 /红色 ) 上 时 ， 应 用 测试 团队 应 
该 使 用 IEA 作为 输入 。 


15.3 PaaS 故障 影响 分 析 


除了 利用 虚拟 机 “架构 即 服务 ”， 基 于 云 的 应 用 还 可 以 利用 “平台 即 服务 ” 这 
一 技术 组 件 ， 如 负载 均衡 、 数 据 库 ， 安 全 设备 等 等 。 在 第 15. 2 节 中 我 们 讨论 了 
Iaas 故障 或 缺陷 对 应 用 服务 的 影响 ， 这 一 部 分 我 们 考虑 PaaS 技术 故障 对 应 用 服务 
的 影响 。“ 平 台 即 服务 ”的 故障 影响 分 析 ( Platform-as-a-Service Failure Effects Anal- 
ysis, PFEA) 步骤 如 下 : | 

1) 列举 应 用 使 用 的 PaaS 技术 组 件 。 在 用 户 服务 交付 路 径 中 ， 应 用 直接 或 间接 
使 用 的 所 有 PaaS 技术 组 件 都 应 该 被 列举 出 来 。 

2) 描述 应 用 如 何 检测 PaaS 技术 组 件 故 障 或 不 可 用 问题 。 像 任何 其 他 软件 对 象 
一 样 ， 技 术 组 件 可 以 缓慢 静默 地 发 生 故 障 ， 也 可 能 快速 直接 地 出 现 故 障 ， 因 此 应 用 
应 该 做 好 对 一 系列 技术 组 件 出 现 故 障 的 检测 和 补救 措施 。 

3) 明确 技术 组 件 不 可 用 造成 的 有 影响。 什么 是 PaaS 技术 组 件 不 可 用 性 的 用 户 服 
务 影响 ?” 例 如 ， 如 果 一 个 特定 组 件 每 年 有 Smin 是 不 可 用 的 ， 那 么 在 这 段 时 间 里 用 
户 服务 是 否 也 不 能 使 用 ? 

4) 明确 技术 组 件 故 障 转移 的 影响 。 虽 然 PaaS 服务 供应 商 提供 的 技术 组 件 可 能 
具有 高 可 用 性 ， 但 技术 组 件 实例 将 不 可 避免 的 失败 然后 需要 重新 恢复 服务 。 技 术 组 
件 出 现 故障 后 ， 虽 然 可 以 成 功 恢复 ， 但 这 会 对 用 户 服 务 产 生 什么 可 能 的 影响 ? 

5) 明确 技术 组 件 软件 发 布 管理 和 计划 维护 的 影响 。 软 件 组 件 不 可 避免 地 需要 
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进行 修补 、 更 新 和 升级 ， 服 务 提 供 商 不 可 能 通知 云 用 户 每 一 个 技术 组 件 维护 的 计划 
安排 。 技 术 组 件 的 维护 操作 对 应 用 用 户 有 什么 可 能 的 影响 ? 
6) 总 结 技术 组 件 故障 影响 分 析 。PFEA 被 概括 为 一 张 表 : 每 一 行 表示 一 个 技 
术 组 件 ， 其 中 一 列表 示 技 术 组 件 故障 转移 ， 另 一 列表 示 对 技术 组 件 的 维护 。 每 一 个 
单元 格 描述 应 用 服务 所 受 的 影响 。 从 本 质 上 讲 ， 用 于 IIEA 的 三 个 风险 分 类 同样 可 
以 用 于 PFEA; 
© 高 风险 (红色 )， 应 用 服务 质量 指标 非常 容易 受到 PaaS 技术 组 件 故 障 的 
影响 ; 
© 中 等 风险 (黄色)， 应 用 服务 质量 需求 比较 容易 受到 PaaS 技术 组 件 故 障 的 
影响 ; 
© 低 风 险 (绿色 )， 应 用 服务 质量 需求 不 会 受到 PaaS 技术 组 件 故 障 的 影响 
7) 推荐 的 补救 措施 。 能 够 将 所 有 高 风险 〈 高 度 影响 ) 项 目 和 中 等 风险 (有 点 
影响 ) 项 目 转化 成 为 低 风 险 (ARI) 项 目的 特定 操作 ， 应 该 提供 给 项 目 团队 和 
决策 者 考虑 。 


15.4 工作 负载 分 配 分 析 


正如 第 6 章 所 讨论 的 ， 在 云 上 进行 负载 分 配 变 得 很 复杂 。 负 载 分 配 功 能 必须 足 
够 健壮 ， 并 且 能 够 积极 地 为 应 用 服务 质量 提供 支持 ， 这 一 点 是 非常 重要 的 。 工 作 负 
载 分 配 分 析 ， 包 含 对 负载 均衡 机 制 和 策略 进行 审查 ， 以 确保 它们 满足 应 用 的 期 望 。 
对 应 用 所 使 用 的 代理 负载 均衡 器 进行 负载 分 配 分 析 ， 应 该 包含 以 下 内 容 : 

e 服务 质量 分 析 (第 15.4.1 节 ); 

。 过 载 控 制 分 析 (第 15.4.2 7). 

如 有 果 分 析 表 明 实 现 应 用 对 负载 分 配 的 期 望 是 不 可 能 的 ,或 者 对 用 户 服 务 可 能 的 
影响 被 认为 是 不 可 接受 的 ， 那 么 应 用 的 染 构 和 /或 负载 均衡 策略 将 会 重新 开始 工作 ， 
然后 重新 进行 分 析 ， 直 到 结果 令 人 满意 为 止 。 


15.4.1 服务 质量 分 析 


服务 质量 分 析 应 包含 以 下 步骤 : 

1) 描述 代理 负载 均衡 器 如 何 支 持 服务 可 用 性 和 服务 可 访问 性 : 

O 负载 均衡 器 如 何 监控 和 检测 应 用 组 件 实例 的 故障 ? 

O 负载 均衡 器 在 失败 的 基础 上 如 何 再 次 平衡 工作 负载 ? 

O 故障 检测 和 流量 再 分 配 的 间隔 时 间 是 多 长 ? 

O 故障 检测 和 流量 再 分 配 比 最 小 付费 停机 时 间 短 ， 因 此 在 组 件 发 生 故 障 时 不 
会 有 付费 停机 的 事情 ? 

O 负载 均衡 器 是 否 缓存 或 重新 发 送 基 于 服务 器 实例 可 用 性 的 消息 ? 
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2) 描述 代理 均衡 器 如 何 支 持 服务 延迟 : 

O 在 应 用 组 件 实例 服务 延迟 时 ， 代 理 负载 均衡 器 收集 什么 数据 ? 

O 负载 均衡 需 在 负载 分 配 决 策 时 ， 如 何 使 用 性 能 数据 来 管理 用 户 服务 延迟 ? 

3) 描述 负载 均衡 希 如 何 文 持 服务 可 靠 性 : 

O 代理 负载 均衡 器 如 何 监 控 和 检测 应 用 组 件 实例 的 服务 可 靠 性 性 能 ? 

O 代理 负载 均衡 锅 如 何 基于 服务 的 可 靠 性 性 能 数据 改变 负载 分 配 ? 

O 负载 均衡 希 如 何 迅速 地 修改 负载 分 配 ? 

4) 描述 代理 负载 均衡 器 如 何 支 持 服务 可 持续 性 

O 如 果 服 务 组 件 所 处 理 的 会 话 在 会 话 完成 之 前 失败 了 ， 如 何 请 求 重 定向 ? 

5) 评 佑 所 描述 的 方法 和 技术 是 否 会 符合 应 用 的 用 户 服务 质量 需求 。 如 果 分 析 
表明 ， 需 求 不 可 能 得 到 满足 ， 那 么 建议 用 补救 措施 来 解决 差异 。 


15.4.2 ”过 载 控 制 分 析 


为 了 分 析 管 理 过 载 应 用 实例 的 服务 质量 风险 ， 我 们 应 

。 描述 负载 代理 均衡 器 如 何 检测 ppe ee 

© 描述 负载 分 配 策略 在 发 生 单个 服务 器 组 件 过 载 故障 时 如 何 改 变 ; 

。 描述 负载 均衡 器 如 何 判 断 单个 应 用 服务 器 组 件 实例 过 载 事件 已 排除 ， 或 是 
如 何 决定 启用 一 个 新 的 应 用 服务 组 件 实例 去 替换 出 现 故 障 的 过 载 组 件 ; 

© 描述 负载 均衡 器 会 采用 什么 样 的 措施 来 减轻 大 部 分 或 所 有 的 服务 器 组 件 池 
过 载 情况 ; 

。 描述 负载 均衡 器 如 何 确定 组 件 池 的 过 载 情况 已 排除 。 

在 评估 和 过 载 测 试 过 程 中 发 现 的 任何 功能 上 的 差异 ， 都 应 该 通过 工作 项 或 新 的 

特征 和 手段 被 正确 调整 到 满足 产品 服务 的 需求 上 来 。 


15.5 反 关 联 性 分 析 


为 了 提高 性 能 ，IaaS 供应 商 试图 将 一 个 应 用 的 所 有 虚拟 机 实例 整合 到 相同 的 虚 
拟 主机 、 相 同 的 机 架设 备 上 ， 从 而 使 应 用 的 交互 组 件 之 间 的 延迟 最 小 化 ， 同 时 还 使 
云 数 据 中 心 内 的 带宽 使 用 率 最 小 化 。IaaS 提供 商 甚至 试图 将 一 个 应 用 的 所 有 虚拟 机 
实例 整合 到 一 个 机 柜 或 单个 虚拟 服务 器 中 ， 但 是 这 会 使 得 虚拟 机 服务 器 的 单 点 故障 
影响 总 的 应 用 服务 能 力 。 

为 了 防止 Iaas 提供 商 在 配置 虚拟 机 时 太 过 激进 ， 以 致 将 应 用 的 高 可 用 性 机 制 
放 人 相同 的 故障 组 ， 导 致 高 可 用 性 机 制 失效 (如 主 用 和 备用 组 件 运行 在 同一 虚拟 
机 服务 器 中 ) ， 反 关联 性 规则 ( 见 第 7.2.3 节 ) 被 用 来 指导 laas 哪些 虚拟 机 不 应 该 
被 放 进 同一 组 中 。 反 关联 性 分 析 的 目的 是 在 架构 故障 之 后 尽快 恢复 服务 。 反 关联 性 
分 析 步 又 如 下 : 
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1) 创建 一 个 应 用 虚拟 机 实例 的 可 靠 性 框图 。 在 RBD 中 每 一 个 块 都 映射 为 应 
虚拟 机 实例 的 一 个 类 型 

2) 确定 能 够 满足 应 用 反 关 联 性 规则 的 虚拟 机 服务 器 主机 的 最 小 数目 。 从 逻辑 
上 讲 ， 一 开始 假设 应 用 的 所 有 的 虚拟 机 实例 被 整合 到 单个 的 无 限 大 的 虚拟 机 服务 器 
中 ， 然 后 应 用 反 关 联 性 规则 ， 使 得 最 小 数量 的 虚拟 机 实例 从 虚拟 机 服务 器 中 转移 到 
最 小 数量 的 备用 虚拟 机 服务 器 主机 上 去 。 

3) 为 从 步骤 2 中 确定 的 最 小 数目 的 每 个 虚拟 机 服务 器 设置 颜色 或 其 他 标识 。 
例如 ， 如 果 虚 拟 机 服务 器 被 期 望 用 来 支持 最 小 应 用 配置 而 且 提 示 满 足 反 关联 性 规则 
的 最 小 数目 是 3， 那 么 我 们 可 以 分 别 用 红色 、 蓝 色 、 绿 色 去 标识 它们 。 

4) 对 步骤 1 中 的 RBD 块 使 用 步骤 3 的 颜色 进行 着 色 ， 并且 只 对 反 关 联 性 规则 
明确 指定 的 块 进行 着 色 。 没 有 由 反 关联 性 规则 明确 指定 的 块 ( 即 虚拟 机 实例 ) 是 
不 能 着 色 的 。 如 果 步 骤 2 的 虚拟 机 服务 器 主机 的 最 小 数目 是 不 正确 的 ， 那么 可 能 定 
义 额外 的 颜色 。 

5) 假设 所 有 未 着 色 的 虚拟 机 实例 被 分 配给 其 中 的 一 个 颜色 组 (如 红色 组 )， 
需要 考虑 : 

A. 该 颜色 组 (如 红色 ) 出 现 故障 对 用 户 服务 的 影响 是 否 可 以 接受 即 不 违反 

应 用 服务 质量 需求 )? 

B， 一 个 备用 颜色 组 (如 蓝 色 ) 的 故障 对 用 户 服务 的 影响 是 否 可 以 接受 ? 

C. 在 每 一 个 颜色 的 虚拟 机 服务 器 主机 出 现 故 障 后 ， 在 最 大 可 接受 服务 恢复 时 
间 内 ， 用 户 服务 是 否 能 自动 恢复 ? 

6) 重复 步骤 5， 将 所 有 未 着 色 的 虚拟 机 实例 分 配 到 其 他 颜色 组 中 。 

7) 推荐 的 补救 措施 。 如 果 步 骤 5 和 步骤 6 的 故障 太 大 ， 则 需要 重 做 反 关 联 性 
规则 。 如 果 按 步骤 4 和 步骤 5 中 对 虚拟 机 的 整合 管理 会 占用 自动 应 用 恢复 机 制 太 长 
时 间 ， 那 么 需要 细 化 反 关联 性 规则 ， 使 得 应 用 恢复 机 制 更 加 健壮 。 重 复 分 析 是 必要 
的 。 需 要 注意 的 是 ，Chaos Monkey (混乱 猴子 ， 能 通过 随机 关闭 服务 的 方式 来 模仿 
小 规模 的 服务 中 断 故 障 ) 可 以 用 来 延长 恢复 时 间 ， 以 便 确 定 服务 延迟 的 影响 。 

由 于 复杂 的 反 关 联 规则 难以 明确 规定 ， 云 服务 提供 商 因 此 会 面临 重重 挑战 ， 并 
可 能 过 度 约束 应 用 部 署 ， 因 此 我 们 需要 限制 使 用 反 关联 性 规则 。 需 要 注意 的 是 ， 应 
用 的 反 关联 性 规则 旨 在 减少 可 能 存在 的 单 点 故障 (VM 服务 器 主机 ) ， 或 对 更 极端 
的 多 点 故障 通过 灾难 恢复 机 制 来 减轻 损失 (如 出 现 故 障 的 服务 将 被 转移 到 不 同 可 
用 区 或 数据 中 心 的 一 个 或 多 个 备用 的 应 用 实例 中 去 ) 。 因 此 ， 当 一 个 虚拟 机 服务 器 
出 现 了 大 量 的 应 用 实例 故障 时 ， 应 用 架构 师 应 该 计划 启动 灾难 恢复 计划 。 


15.6 弹性 分 析 


云 应 用 的 快速 弹性 特点 引入 了 新 的 服务 风险 ,这些 风险 在 结构 和 设计 阶段 应 进 
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行 认真 分 析 和 管理 。 两 个 通常 的 弹性 分 析 应 该 被 执行 : 
© 在 线 服务 容量 弹性 分 析 。 在 线 服务 容量 弹性 分 析 首先 为 应 用 所 支持 的 弹性 
服务 容量 增长 操作 〈 见 第 15. 6. 1 节 ) 进行 登记 。 每 个 增长 操作 所 具有 的 服 
务 风险 将 在 第 15.6.2 节 中 介绍 。 容 量 逆 增 长 的 风险 将 在 第 15.6.3 市 中 
讨论 。 ; 
。 存储 容量 弹性 分 析 。 存 储 容量 弹性 分 析 首 先 为 应 用 所 支持 的 存储 容量 增长 
操作 〈 见 第 15. 6. 4 节 “ 存 储 容量 增长 场景 " ) 进行 登记 。 然 后 ， 每 个 登记 
的 操作 所 具有 的 服务 风险 将 根据 支持 存储 容量 增长 操作 ( 见 第 15.6.5 节 
“在 线 存储 容量 增长 操作 分 析 ”) 和 支持 存储 容量 逆 增 长 操作 ( 见 第 15. 6. 6 
节 “ 在 线 存 储 容 量 逆 增长 操作 分 析 ”) 两 种 情况 分 别 进行 考虑 。 
如 果 分 析 表 明 ， 实 现 应 用 的 弹性 期 望 或 需求 ( 见 第 13.8 节 “ 弹 性 需求 ”) BE 
不 可 行 也 不 可 能 ， 或 者 可 能 造成 的 对 用 户 服务 的 影 啊 被 认为 是 无 法 接受 的 ， 那 么 可 
以 对 该 应 用 的 设计 进行 再 加 工 和 重复 分 析 ， 直 到 结果 令 人 满意 为 止 。 这 一 分 析 结 果 
可 以 作为 弹性 测试 用 例 的 输入 〈 见 第 16.4.5 节 “ 应 用 程序 弹性 测试 ”) o 


15.6.1 服务 容量 增长 场景 


以 下 列举 支持 容量 增长 策略 的 应 用 弹性 架构 : 

1 ) 如 果 支 持 服 务 容量 的 水 平 增 长 ， 则 : 

© 什么 是 水 平 容量 增长 的 单位 ， 如 虚拟 机 实例 ? 

。 什么 是 最 小 水 平 规模 配置 和 服务 容量 ? 

© 什么 是 最 大 水 平 规模 配置 和 服务 容量 ? 

2) 如 果 支 持 服 务 容 量 的 垂直 增长 ， 则 : 

。 什么 是 垂直 服务 容量 增长 的 单位 ? 

。 什么 是 最 小 垂直 规模 ? 

。 什么 是 最 大 垂直 规模 ? 

3) 关于 服务 容量 的 向 外 增长 : 

© 如 果 文 持 创建 一 个 独立 应 用 实例 ， 则 独立 应 用 实例 如 何 联合 ? 
e 如 果 支 持 对 现 有 应 用 实例 进行 资源 整合 ， 则 如 何 进行 整合 ”? 


15.6.2 服务 容量 增长 操作 分 析 


在 确定 了 应 用 所 支持 的 在 线 服 务 容量 的 具体 增长 操作 之 后 ， 接 下 来 应 该 考虑 每 
个 操作 的 下 列 问题 : 

1) 配置 间隔 分 析 。 建 立 一 个 时 间 表 来 估计 在 线 弹 性 能 力 增长 操作 可 能 的 配置 
时 间 间 隔 ， 包 括 来 运行 测试 流量 的 浸泡 间隔 的 时 间 。 

2) 与 过 载 控制 机 制 解 耦 。 验 证 应 用 的 过 载 控制 机 制 不 会 影响 弹性 增长 行为 。 
例如 ， 弹 性 的 操作 不 会 因为 应 用 实例 的 “TOO BUSY” 错 误 或 其 他 过 载 控制 机 制 而 
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失效 。 

3) 在 降级 的 架构 平台 进行 健壮 性 操作 。 验 证 弹性 增长 操作 是 健壮 的 ， 当 执行 
弹性 增长 操作 时 ， 对 于 虚拟 化 架构 资源 和 其 他 应 用 组 件 (因为 弹性 增长 操作 的 执 
行 而 变 得 严重 过 载 ) 性 能 的 降低 不 会 太 敏 感 。 

4) 与 过 载 控制 触发 机 制 的 整合 。 检 验 过 载 控制 触发 需 ， 在 额外 的 服务 容量 被 
在 线 添加 后 ， 能 够 及 时 重新 评 佑 容量 。 这 样 在 额外 的 应 用 容量 联机 后 ， 流 量 就 不 会 
被 拥塞 机 制 所 拒绝 。 

5) 并 发 控制 。 验 证 并 发 控制 机 制 的 健壮 性 。 在 增长 操作 完成 之 后 ， 增 长 或 逆 
增长 请 求 不 会 被 立即 受理 ， 弹 性 管理 功能 会 在 容量 变化 完成 之 后 考虑 所 预期 的 容 
量 ， 以 避免 容量 过 度 。 

6) 雨天 分 析 。 验 证 如 果 第 8. 11 市 中 的 任何 弹性 故障 情况 发 生 时 ， 应 用 是 否 能 
在 当前 容量 下 继续 运行 ( 当然 要 激活 过 载 控 制 ) 。 


15.6.3 服务 容量 侯 增 长 操作 分 析 


为 了 分 析 每 个 弹性 容量 减少 操作 带 来 的 服务 质量 风险 ， 我 们 应 该 做 以 下 几 点 : 

1) 描述 逆 增 长 过 程 ， 包括 从 被 回收 的 资源 中 调整 用 户 流量 ; 

2) 确认 目标 资源 流量 逐渐 流失 市 来 的 服务 影响 ; 

3) 描述 目标 资源 流失 用 户 流 量 的 过 程 。 如 玉 流 失 不 够 快 ， 则 需要 确认 强行 减 
少 流量 对 用 户 服务 的 影响 ; 

4) 估计 可 能 和 最 快 的 情况 下 资源 释放 间隔 ; 

5) 当 一 个 版 本 发 布 操作 正在 等 待 执行 时 ， 服 务 容量 增长 操作 该 怎么 办 ? 

任何 未 辅 以 匹配 的 弹性 逆 增 长 操作 的 弹性 增长 操作 ， 应 该 被 格外 注意 ， 并 且 简 
要 说 明 为 什么 不 支持 弹性 逆 增 长 操作 。 


15. 6.4 存储 容量 增长 场景 


除了 进行 在 线 应 用 容量 的 弹性 分 析 ， 架 构 设 计 师 还 应 该 考虑 所 有 持久 性 存储 的 

弹性 。 架 构 设计 师 应 该 把 所 有 持久 性 数据 归 为 以 下 三 种 类 型 之 一 : 

。 在 线 弹 性 存储 。 这 些 数据 存储 可 以 与 应 用 实例 一 样 在 线 弹 性 增长 ， 并 提供 
服务 给 最 终 用 户 。 

。 脱 机 可 重 构 存储 。 这 些 数据 存储 的 大 小 可 以 通过 脱 机 维护 工作 进行 重新 配 
置 。 如 重新 启动 或 重新 安装 应 用 实例 。 脱 机 弹性 操作 对 用 户 服务 的 影响 应 
该 进行 总 结 ( 就 像 安 装 一 个 新 软件 版 本 对 服务 所 造成 的 影响 ) 。 

© 非 弹 性 存储 。 这 个 数据 存储 的 大 小 不 能 改变 。 非 弹性 存储 分 配 的 限制 条 件 
(或 缓解 措施 ) 应 该 被 明确 说 明 ， 比 如 要 求 创建 男 一 个 应 用 程序 实例 找 出 
耗 尽 这 种 非 弹 性 资源 的 最 可 能 (也 许 是 极端 的 ) 的 情况 ， 以 及 资源 耗 尽 会 
带 来 什么 样 的 用 户 可 见 的 服务 影响 。 
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15.6.5 在 线 存 储 容量 增长 操作 分 析 


对 于 每 个 在 线 弹 性 存储 增长 操作 ， 我 们 应 该 : 

1) 描述 增长 特征 ， 如 水 平 增长 ， 垂 直 增 长 ; 

2) 给 出 存储 增长 的 单位 ， 以 及 最 小 规模 和 最 大 规模 的 约束 条 件 ; 

3) 描述 存储 增长 过 程 ; 

4) 评估 和 典型 的 配置 时 间 ; 

5) 总 结 成 功 存储 增 长 操作 对 用 户 服 务 的 影响 ; 

6) 如 果 存 储 容量 增长 操作 会 被 自动 触发 ,那么 什么 是 可 能 的 触发 条 件 和 
规则 ? 


7) 解释 弹性 存储 增长 故障 的 检测 及 恢复 策略 。 


15.6.6 在 线 存储 容量 逆 增 长 操作 分 析 


对 于 每 个 在 线 弹 性 存储 增长 情况 ， 应 该 解释 是 否 支 持 对 应 的 逆 增 长 操作 。 如 果 
对 应 的 逆 增 长 操作 不 被 支持 ， 那 么 应 该 解释 为 什么 不 被 支持。 为 了 文 持 在 线 逆 增 长 
操作 ， 我 们 应 该 : 

1) 解释 存储 容量 逆 增 长 过 程 ; 

2) 评 佑 典型 事件 资源 回收 时 间 间 隔 ; 

3) 如 果 人 存储 容量 逆 增 长 操作 期 望 能 被 自动 触 上 发， 那么 什么 是 可 能 的 触发 条 件 
和 规则 ? 

4) 解释 在 版 本 发 布 间 际 ， 弹 性 存储 容量 增长 操作 如 何 处 理 ? 


15.7 发 布 管理 影响 效应 分 析 


对 于 文 持 在 线 发 布 管理 的 应 用 ， 当 执行 补丁 、 更 新 、 升 级 或 改造 操作 时 ， 我 们 
有 必要 分 析 并 最 小 化 对 在 线 用 户 的 服务 影响 。 


15.7.1 服务 可 用 性 影响 


为 了 评 们 发 布 管理 操作 对 服务 可 用 性 的 影响 : 

1) 描述 软件 升级 的 过 程 ， 包 括 完成 每 项 任务 所 需 的 时 间 。 在 一 个 成 功 的 软件 
升级 过 程 中 如 流量 从 旧版 本 重 定 癌 到 新 版 本 时 ) ， 客 户 服务 不 可 用 的 时 间 间 隔 是 
多 久 ? 是 否 要 做 检查 以 确保 新 发 布 的 实例 有 足够 的 资源 可 以 使 用 ? 

2) 描述 丢弃 或 回 滚 一 个 软件 版 本 的 过 程 ， 包 括 数据 库 模 式 和 内 容 回 滚 。 在 一 
个 成 功 的 丢弃 / 回 滚 过 程 中 ， 客 户 服务 不 可 用 《如 流量 从 新 版 本 重 定向 到 旧版 本 
时 ) 的 时 间 间 隔 是 多 和 久 ? 


~ 
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15.7.2 服务 可 靠 性 影响 


验证 数据 记录 和 其 他 资源 完全 是 可 用 的 ， 以 便 没 有 服务 请 求 因为 “资源 暂时 
不 可 用 ”人 情况 而 被 拒绝 。 如 果 在 发 布 管理 过 程 的 任何 时 间 点 有 任何 请 求 不 能 成 功 ， 
那么 准确 记录 服务 性 质 和 服务 受 影响 的 持续 时 间 。 


15.7.3 服务 可 访问 性 影响 


如 果 不 能 持续 在 整个 发 布 管理 过 程 中 提供 服务 给 用 户 ， 那 么 描述 服务 不 可 访问 
的 可 能 持续 时 间 和 人 性质。 


15.7.4 服务 可 维持 性 影响 


如 果 任 何 现 有 用 户 会 话 在 发 布 管理 过 程 中 出 现 中 断 或 掉 线 ， 则 描述 可 能 受到 的 
服务 影响 。 验 证 在 流量 减少 过 程 中 ， 能 够 有 效 保留 用 户 会 话 直 到 其 被 正式 终止 。 


15.7.5 服务 吞吐 量 影响 


数据 的 增加 通常 对 应 用 数据 库 产生 很 大 的 负载 ， 而 这 额外 的 工作 量 可 能 会 影响 
服务 乔 吐 量 。 如 果 数 据 增长 或 发 布 管理 的 任何 方面 能 够 影响 服务 吞吐 量 ， 那 么 需要 
分 析 和 描述 这 一 影响 的 性 质 和 持续 时 间 。 


15.8 恢复 点 目标 分 析 


恢复 点 目标 (Recovery Point Objective, RPO) 分 析 需 要 考虑 : 恢复 的 数据 是 否 
过 时 或 什么 是 数据 丢失 的 最 大 窗口 ? 例如 ， 有 多 少 秒 / 分 钟 / 小 时 /天 的 用 户 操作 、 
库存 变化 、 销 售 或 其 他 事务 操作 可 能 在 灾难 恢复 中 丢失 ? 

如 图 15.2 所 示 ， 最 坏 恢复 情况 是 在 一 个 定期 备份 完成 之 前 发 生 灾 难 性 故障 ， 
所 以 必须 恢复 到 最 后 一 次 完全 备份 ， 以 下 是 需要 注意 的 方面 : 

a. 定期 备份 间隔 〈T， ，) ， 如 每 天 24h 备份 时 间 加 上 成 功 执行 所 需 时 间 。 

b. 备份 到 一 个 地 理 位 置 相 对 遥远 的 站 点 的 时 间 (Tw )。 最 好 的 情况 RPO 
( 见 图 15.3) 是 在 备份 到 一 个 地 理 位 置 殉 远 的 站 点 之 后 灾难 性 事件 才 发 生 。 

RPO 分 析 包 括 以 下 步骤 : 

1) 列举 所 有 已 备份 的 持久 性 数据 的 数据 库 ， 定 期 更 新 到 一 个 地 理 位 置 瑰 远 的 
数据 中 心 ， 并 将 以 下 内 容 作 为 灾难 恢复 过 程 的 一 部 分 : 

o 库存 数据 库 ; 

。 销售 数据 库 ; 

© 配置 数据 库 ; 

e 安全 日 志 ; 
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最 坏 情 况 恢 复 点 场景 是 指 灾难 性 故障 恰好 发 生 在 备份 
完成 之 前 ， 一 般 情况 下 恢复 需要 基于 之 前 的 备份 ， 此 
时 备份 来 自 于 最 近 一 个 周期 性 备份 时 间 间 隔 (TPeriodic) 
加 上 成 份 完 成 一 个 备份 操作 所 需要 的 时 间 (TAarchive) 


时 间 


图 15.2 最 坏 情况 恢复 点 场景 
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最 好 情况 恢复 点 场景 里 指 灾难 性 故 


时 间 REER (archiv) 时 间 之 后 


图 15.3 最 好 情况 恢复 点 场景 


。 事件 日 志 。 

2) 列举 那些 未 备份 到 地 理 位 置 遥 远 的 数据 中 心 ， 并 因此 在 灾难 恢复 中 丢失 的 
易 失 性 和 持久 性 数据 ， 如 : 

。 活动 的 用 户 会 话 ， 以 及 所 有 与 活动 会 话 相关 的 被 挂 起 的 事务 ; 

。 性 能 管理 数据 。 


3) 当 未 备份 数据 突然 丢失 时 〈 如 发 生 以 下 意外 灾难 事件 ) ， 总 结 恢复 服务 对 
用 户 和 整体 的 影响 ， 如 : 
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。 活跃 用 户 会 话 突然 终止 ， 以 及 当 用 户 恢 复 服务 到 DR 站 点 时 ， 没 有 任何 迹 
象 地 突然 终止 会 话 ; 
© 没 能 推送 到 服务 保证 产品 上 进行 保存 的 所 有 性 能 管理 数据 会 永久 丢失 。 
4) 总 结 恢复 那些 “RPO” 过 时 的 备份 数据 导致 的 影响 。 解 释 在 最 近 一 次 为 每 
个 持久 性 数据 备份 以 后 ， 丢 失 的 数据 变更 导致 的 实际 影响 ， 例 如 
© 当 存 储 数 据 库 恢复 时 ， 所 有 小 于 RPO 分 钟 的 库存 变化 会 完全 丢失 ; 
。 当 销 售 数据 库 恢 复 时 ， 所 有 小 于 RPO 分 钟 的 销售 会 完全 丢失 ; 
。 当 配 置 数 据 库 恢复 时 ， 所 有 小 于 RPO 分 钟 的 配置 变化 会 完全 丢失 
© 当 安全 日 志 恢 复 时 ， 所 有 小 于 RPO 分 钟 的 安全 事件 会 完全 丢失 ; 
e 当 事 件 日 志 恢复 时 ， 所 有 小 于 RPO 分 钟 的 警告 事件 会 完全 丢失 ; 
对 于 每 一 个 ， 显 示 数据 是 否 已 被 送 到 一 个 OSS 或 另 一 可 以 被 恢复 的 组 件 上 。 
5) 为 每 个 已 归档 并 作为 灾难 恢复 操作 一 部 分 的 持久 性 数据 ， 指 定 一 个 默认 
(或 推荐 ) 定期 备份 时 间 间 隔 (Te) ， 如 : 
© 建议 对 持久 性 数据 进行 定期 备份 (BI Theid =4h) ， 包 括 库存 数据 库 、 销 售 
数据 库 、 配 置 数据 库 、 安 全 日 志和 事件 日 志 。 
6) 估计 定期 备份 (Tw) 数据 到 一 个 地 理 位 置 遥 远 的 数据 中 心 的 典型 时 
间 ， 如 : 
。 将 库存 数据 库 、 销 售 数据 库 、 配 置 数据 库 、 安 全 日 志和 事件 日 志 备 份 到 地 
理 位 置 瑰 远 的 恢复 站 点 ,通常 在 2h 内 完成 ( 即 Thai 等 于 2h) 
7) 估计 最 坏 情 况 下 完成 定期 数据 库 备份 的 时 间 (Ts ) 。 
8) AZRA T periodie EI] Tperiodie + Twpive 之 间 RPO 值 的 近似 范围 ， 如 : 
© 实际 恢复 点 可 能 在 2h (CT arrive =2h) 和 26h (Tperiodie = 24H + Tyrchive = 2h) 
之 间 。 


15.9 恢复 时 间 目 标 分 析 


如 果 系 统 以 全 部 容量 正常 运行 ,恢复 时 间 目 标 (Recovery Time Objective, 
RTO) 分 析 名 义 上 通过 累加 完成 所 有 应 六 用 恢复 操作 所 需 的 时 间 ， 可 以 评估 实际 的 恢 
复 时 间 。 

1) 灾难 检测 时 间 。 为 了 自动 激活 灾难 恢复 机 制 ， 该 时 间 必 须 包 括 一 些 离线 系 
统 确认 灾难 确实 发 生 并 激活 灾难 恢复 机 制 的 时 间 。 对 于 手动 激活 灾难 恢复 机 制 ， 发 
表 正 式 的 灾难 声明 并 激活 灾难 恢复 机 制 的 时 间 应 该 被 包含 在 恢复 时 间 评 估 中 。 

2) 选择 灾难 恢复 站 点 。 一 些 灾 难 恢复 机 制 将 所 有 被 影响 的 工作 交 由 一 个 单一 
恢复 站 点 ; 其 他 灾难 恢复 机 制 把 受 影响 的 工作 分 发 给 2 个 或 多 个 恢复 站 点 。 站 点 选 
择 决策 需要 考虑 分 配给 用 来 收集 必要 的 数据 ， 选 择 灾 难 恢复 站 点 ， 以 及 与 选择 的 所 
有 适合 站 点 和 系统 进行 通信 的 时 间 。 通 知 选择 灾难 恢复 站 点 和 支持 人 员 的 时 间 ， 以 
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及 其 他 相关 恢复 操作 的 时 间 ， 也 应 该 被 包含 在 考虑 范围 内 。 

3) 分 配 和 上 线 足 够 的 虚拟 化 资源 给 恢复 站 点 上 被 影响 的 工作 。 如 果 没 有 收集 
到 足够 的 备用 容量 并 保持 上 线 ， 那 么 额外 的 虚拟 机 、 网 络 、 存 储 等 其 他 架构 资源 必 
须 被 分 配 、 配 置 和 激活 。 

4) 从 最 近 的 恢复 点 定位 和 恢复 应 用 数据 。 受 影响 站 点 保留 的 数据 应 该 被 恢复 
或 重新 同步 到 应 用 实例 上 。 根 据 数据 备份 /复制 策略 ， 可 能 需要 导 和 人 一 个 或 多 个 数 
据 库 备份 ， 然 后 在 最 近 的 恢复 点 应 用 一 系列 的 增 量 更 新 方法 去 重建 应 用 数据 的 可 用 
图 像 。 如 果 归 档 数 据 存储 在 一 个 地 方 ， 而 不 是 恢复 站 点 ,那么 在 归档 站 点 和 恢复 站 
点 之 间 的 大 量 额 外 的 WAN 容量 可 能 会 缩短 检索 归档 数据 所 需 的 时 间 。 考 虑 到 备份 
数据 的 大 小 、 不 同 数据 集 的 数量 ， 以 及 备份 数据 存储 的 位 置 (例如 配置 和 恢复 应 
用 实例 在 地 理 上 是 分 离 的 ) ， 从 持久 性 存储 库 读 取 数 据 、 将 其 压缩 用 于 传输 、 在 三 
域 网 发 送 数据 以 及 在 恢复 站 点 解压 它 ， 这 些 可 能 需要 大 量 的 时 间 。 

5) 恢复 足够 的 用 户 服务 能 力 。 编 写 良 好 的 RTO 需求 可 以 明确 地 指定 受 影响 用 
户 的 比例 。 身 份 验证 和 面向 会 话 的 应 用 可 能 会 经 历 异常 高 的 登录 量 ， 因 为 所 有 受 影 
响 的 用 户 自动 尝试 快速 恢复 服务 。 同 时 登录 流量 的 激增 ， 可 能 远 远 高 于 应 用 提供 的 
正常 登录 和 认证 工作 负载 。 毕 竟 ,， 在 正常 的 一 天 ,用户 可 能 会 在 一 个 时 间 段 〈 例 
如 业务 系统 的 平日 的 上 午 7: 30 ~9: 30) 尝试 访问 该 系统 ， 但 灾难 事件 可 能 会 因 
同时 影响 站 点 而 影响 所 有 用 户 ， 因 此 ， 当 恢复 站 点 上 线 时 ， 所 有 用 户 几 乎 会 同时 沧 
斌 启动 恢复 操作 。 所 有 受 影响 的 客户 端 同时 进行 恢复 可 能 会 让 恢复 应 用 实例 过 载 ， 
因此 拥塞 控制 机 制 或 退 避 算法 可 能 被 激活 ， 以 确保 受 影响 的 用 户 能 够 进行 身份 验证 
和 以 一 种 有 序 的 方式 提供 服务 。 根 据 恢复 应 用 实例 的 上 线 容 量 ， 应 用 的 拥塞 控制 机 
制 的 效率 以 及 客户 重 试 机 制 的 配置 ， 可 能 需要 几 十 分 钟 或 更 长 时 间 按 比例 地 为 受 影 
啊 的 用 户 完 全 服务 恢复 。 

注意 事项 : 

a. 基于 灾难 恢复 设计 和 备用 站 点 的 就 绪 程度 ， 一 些 恢复 活动 可 以 考虑 省 略 把 。 

b. 实际 恢复 时 间 可 能 受到 在 灾难 事件 期 间 (或 恢复 时 间 ) 活动 的 用 户 数量 的 
影响 。 例 如 ， 在 下 午 3 点 为 成 千 上 万 的 用 户 重 新 验证 和 重建 会 话 要 上 比 在 姿 晨 为 极 少 
数 用 户 重 新 验证 和 重建 会 话 明 显 需要 更 长 时 间 。 因 此 ， 在 估计 恢复 时 间 时 ， 通 常会 
设 定 一 个 忙 时 的 工作 负载 而 不 是 最 少 工作 负载 。 

最 实际 的 做 法 是 ， 编 写 一 个 文档 一 步 步 描述 灾难 恢复 过 程 ， 包 括 为 每 一 步骤 佑 
计 完 成 时 间 ， 然 后 通过 测试 进行 验证 。 


第 16 章 测试 注意 事项 


由 于 在 虚拟 化 染 构 下 服务 交付 的 缺陷 ( 见 第 4 章 “虚拟 化 架构 缺陷 ” ) 和 云 操 
作 的 特点 ， 例 如 快速 弹性 〈 见 第 3 章 “ 云 模型 ")， 使 得 在 云 架 构 下 部 署 应 用 程序 
仓 在 着 服务 质量 的 风险 。 本 章 认 为 ， 适 当 的 增 量 测试 可 以 确保 应 用 程序 服务 质量 满 
足 在 云 架 构 下 部 署 的 要 求 。 本 章 首先 概述 了 测试 环境 的 主要 内 容 ， 之 后 对 测试 策略 
进行 探讨 ， 并 介绍 了 虚拟 化 架构 下 存在 的 缺陷 以 及 测试 计划 。 


16.1 测试 环境 


应 用 程序 服务 质量 测试 是 ISO 9000 研究 的 质量 认证 过 程 “ 展 示 满 足 特定 要 求 
的 能 力 ” [ISO_9000 ] 。 验 证 是 指 “ 通 过 客观 证 据 来 验证 是 否 特定 的 需求 已 执行 ” 
[ISO_9000] 并 且 回 答 “ 是 否 已 经 正确 建立 了 这 个 系统 ”。 确 认 是 指 “ 通 过 客观 证 
据 确 认 用 户 或 应 用 程序 的 特定 需求 是 否 已 执行 ”[1SO_9000] 并 且 回 答 “是 否 已 经 
建立 了 正确 的 系统 ?” 本 章 的 重点 是 验证 服务 质量 的 需求 是 否 正确 实施 ; 而 确认 已 
经 开发 了 “正确 ”系统 并 不 在 本 章 涵盖 的 范畴 。 一 
通过 以 下 典型 方法 进行 验证 : 
。 测试 ， 是 指 “ 通 过 程序 来 确定 一 个 或 多 个 特性 ”[1S0_9000]。 
。 检查 ， 是 指 “ 通 过 观察 和 评估 并 进行 适当 的 测量 、 测 试 或 计量 得 到 的 一 至 
性 评价 ”[ISO_9000 ] 。 
。 评价 ， 是 指 “ 采 取 活 动 来 确定 主题 的 适宜 性 、 充 分 性 和 有 效 性 以 实现 既定 
目标 ”[ISO_9000] 。 
应 用 程序 可 能 是 衡量 资源 使 用 情况 一 个 重要 的 因素 ,这 将 直接 影响 去 用 户 的 运 
营 开支 (OPEX) ， 应 用 程序 的 资源 使 用 特征 并 不 在 本 章 的 讨论 范畴 。 


16.2 测试 策略 


云 计 算 明 确 将 应 用 软件 从 底层 硬件 架构 中 分 离 出 来 ， 因 为 运营 和 维护 云 架 构 的 
云 服务 提供 商 往往 从 组 织 上 与 操作 应 用 软件 的 云 用 户 分 离开 了 。 应 用 程序 共同 驻 留 
的 虚拟 机 (VM) 服务 器 、 共 享 存储 阵列 和 网 络 织 构 的 VM 实例 是 可 以 变化 的 ， 容 
量 的 弹性 增长 和 逆 增 长 使 得 应 用 程序 的 特定 设置 会 随 着 时 间 改 变 。 因 此 ， 要 求 应 用 
程序 能 够 在 “精确 ”的 部 署 架 构 下 测试 服务 质量 是 不 现实 的 ， 不 管 应 用 提供 商 还 
是 云 用 户 都 不 能 通过 云 服务 供应 商 的 物理 架构 严格 控制 应 用 程序 组 件 的 实际 位 置 ， 
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并 且 精 确 的 配置 往往 是 随 着 时 间 变 化 的 。 结 果 是 ， 应 用 程序 提供 商 必须 使 应 用 程序 
能 够 容忍 通过 不 同 的 云 服务 供应 商 时 可 能 遇 到 的 变化 ， 其 物理 配置 和 虚拟 化 资源 的 
质量 在 不 同 的 时 间 对 应 用 程序 的 虚拟 机 实例 可 用 程度 不 同 ， 正 如 将 整个 数据 中 心 的 
工作 负载 转移 与 云 服 务 提 供 商 的 运营 和 维护 操作 所 需 的 时 间 不 同一 样 。 这 种 配置 的 
变化 要 求 在 制定 服务 质量 的 测试 计划 时 应 考虑 几 点 : 
。 如 何 选择 云 平台 作为 测试 平台 (第 16. 2. 1 节 “ 云 测试 平台 ”) ; 
© 应 该 使 用 多 少 云 测试 平台 的 容量 进行 测试 (第 16.2 2 节 “ 用 于 测试 的 容量 ”) ; 
© 执行 多 少 事务 方 可 充分 表征 服务 质量 和 延迟 〈 第 16.2.3 节 “ 统 计 和 置信 和 度 ” ) ; 
。 如 何 测 量 服务 中 断 时 间 (第 16. 2.4 节 “ 服 务 中 断 时 间 ”) 。 


16.2.1 云 测试 平台 


当 考虑 验证 基于 云 的 应 点 用 程序 时 ， 最 根本 的 测试 问题 是 能 否 将 应 用 程序 在 目标 
云 架构 产品 或 一 些 具有 参考 价值 的 、 便 捷 的 〈 如 最 具 经 济 效益 的 ) 云 架 构 上 进行 
验证 。 如 果 一 个 应 用 程序 开发 就 是 为 了 适应 单一 的 云 服 务 架 构 ， 那 么 在 这 个 云 服 务 
提供 商 的 架构 上 进行 测试 就 没有 太 大 意义 。 但 是 ， 如 果 一 个 应 用 程序 将 被 部 署 到 多 
个 云 服 务 提 供 商 的 架构 上 ， 那 么 选择 一 个 “参考 ” 云 环境 测试 或 者 简单 的 挑选 出 
最 符合 成 本 效益 的 云 架构 进行 测试 就 十 分 必要 了 。 云 测试 相对 传统 配置 而 言 ， 具 有 
灵活 的 优势 ， 因 为 不 需要 验证 具体 部 署 环境 。 商 业 上 的 考虑 可 能 会 建议 采用 混合 的 
测试 计划 ， 其 中 大 部 分 的 测试 采用 参考 或 便利 的 云 环境 来 完成 ， 部 分 测试 活动 
(例如 验证 服务 质量 表现 ) 在 特定 的 用 户 云 服务 架构 上 进行 。 云 的 选择 对 普通 功能 
测试 的 影响 可 能 不 大 ， 但 服务 质量 测试 结果 由 于 正常 操作 和 在 特定 的 云 架构 上 的 典 
型 操作 ， 会 产生 较 大 的 影响 。 因 此 ， 相 对 实际 测试 而 言 ， 在 云 平台 上 执行 服务 质量 
测试 可 能 难以 准确 的 推断 应 用 程序 的 服务 质量 特性 。 为 了 控制 不 同 云 平 台 上 应 用 程 
序 性 能 存在 差异 带 来 的 风险 ， 测 试 应 该 模拟 应 用 程序 最 典型 的 架构 缺陷 。 由 于 不 同 
的 管理 程序 具有 不 同 的 操作 特征 ， 至 少 一 些 测试 应 该 在 由 支持 不 同 管理 程序 的 应 用 
软件 来 执行 。 

作为 持续 交付 的 一 部 分 ， 构 造 版 软件 可 以 实例 化 ， 并 且 为 了 测试 真实 环境 下 的 
服务 质量 可 以 向 小 部 分 用 户 提 供 使 用 。 这 种 方式 收集 来 的 数据 可 以 用 来 确定 是 否 需 
要 对 应 用 程序 进行 修改 或 者 该 版 本 在 增加 业务 负荷 时 是 否 足够 稳定 。 


16.2.2 用 于 测试 的 容量 


传统 应 用 程序 测试 经 常 受 到 资金 约束 的 限制 ， 开 发 组 织 用 有 限 的 资金 测试 平台 
的 硬件 、 软 件 许可 以 及 用 户 负 和 载 的 容量 。 因 此 ， 测试 团队 能 够 用 于 系统 测试 的 最 大 
工作 负载 实际 上 经 常 受 限于 资金 的 预算 。 正 如 云 计 算 可 以 将 资本 支出 (CAPEX) 
变 为 云 用 户 的 运营 开支 (OPEX) ， 测 试 机 构 也 可 以 重新 设计 自己 的 运营 ， 将 潜在 
的 约束 从 资本 支出 转变 为 运营 开 文 。 不 必 购 买 基础 设施 来 承载 测试 所 需 的 应 用 配置 
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和 用 户 负 载 模拟 器 ， 测 试 机 构 可 以 在 公有 云 配 置 自 己 的 测试 平台 (包括 用 户 负载 
模拟 器 ) ， 这 就 有 足够 的 基础 设施 资源 用 来 支持 应 用 程序 配置 以 及 模拟 大 用 户 负 
载 。 然 而 ， 由 于 这 种 云 容量 会 基于 使 用 情况 定价 ， 每 个 测试 运行 的 运营 开支 
(OPEX) 变 得 更 加 具体 ， 因 此 测试 运行 50000 个 模拟 用 户 很 可 比 测试 运行 5000 个 
模拟 用 户 成 本 略 高 ， 并 且 持续 数 天 可 能 是 十 亿 次 的 续航 测试 运行 ， 比 测试 运行 几 小 
时 也 许 就 百 万 次 的 成 本 更 高 。 

更 有 趣 的 是 ， 这 种 灵活 性 可 能 会 允许 测试 人 员 重新 设计 测试 活动 ， 使 大 规模 的 
云 计算 试验 台 的 基础 设施 资源 联机 缩短 测试 执行 时 间 。 随 着 用 户 工作 负载 和 云 容量 
测试 的 自动 化 ， 可 以 通过 同时 并 行 执行 多 个 独立 的 云 测试 平台 测试 计划 来 缩短 执行 
应 用 程序 测试 活动 所 需要 的 时 间 。 实 际 上 ， 同 时 并 行 所 有 的 测试 计划 是 不 切实 际 
的 ， 因 为 极 少数 的 错误 或 配置 不 当 就 可 能 会 导致 大 量 的 测试 用 例 失败 ， 每 个 失败 的 
测试 用 例 需 要 分 析 和 判断 根本 原因 ， 因 此 合理 使 用 并 行 测试 〈 例 如 日 常 回归 测试 ) 
可 以 缩短 应 用 程序 的 整体 周期 。 


16.2.3 统计 置信 和 度 


服务 的 可 靠 性 、 时 延 、 可 访问 性 性 、 可 维持 性 性 和 吞吐 量 是 基础 统计 特性 ， 数 
十 万 、 上 百 万 甚至 上 亿 的 操作 达到 可 信 的 验证 统计 要 求 。 为 了 痊 代 实施 严格 的 数学 
分 析 来 计算 测试 用 例 的 迭代 次 数 ， 实 现 量化 统计 的 置信 度 要 求 ， 测 试 人 员 应 设计 足 
够 的 迭代 次 数 ， 确 保 具备 统计 学 上 显著 的 效果 。 实 际 上 ， 这 就 意味 着 缺陷 比 成 功 要 
求 的 先 代 次 数 更 多 ， 应 包含 至 少 一 个 数量 级 以 上 的 迁 代 ， 因 此 如 果 请 求 失败 不 超过 
十 万 分 之 一 (10DPM [每 百 万 缺陷 ])， 那 么 测试 至 少 应 该 执行 1000000 次 (10 x 
100000 ) 。 


16.2.4 服务 中 断 时 间 


正如 第 5 章 “ 应 用 程序 元 余 和 云 计 算 ” 中 所 述 ， 不 同 的 应 用 程序 架构 、 超 时 
保护 和 最 大 重 试 次 数 带 来 的 故障 可 以 产生 不 同 的 用 户 服务 影响 。 为 了 准确 的 表征 高 
性 能 顺序 、 并 行 及 混合 宛 余 体系 结构 对 用 户 服务 的 影响 ， 需 要 适当 的 高 精度 测试 
工具 。 

图 16. 1 说 明了 由 于 应 用 “B” 失 败 引 起 的 客户 端 “A” 服 务 中 断 延 迟 的 测量 
概念 。 通 常客 户 端 “A” 将 请 求 发 送 到 “B”， 而 “B” 迅 速 地 发 出 回应 。 健 壮 性 测 
试用 例 导致 “B” 的 某 些 组 件 产生 严重 故障 ， 这 就 阻止 了 “B” 在 一 定时 间 内 的 啊 
应 请 求 ( 中断 延 迟 )， 要 求 期 间 产生 2 ~6 次 故障 后 ， 在 第 7 KRIK “B” H 
速 对 客户 端 “A” 的 请 求 返回 正确 的 啊 应 。 

图 16. 2 说 明了 如 何 量化 客户 端 之 间 中 断 延 迟 的 请 求 时 间 ， 因 为 服务 延迟 可 以 
通过 计算 发 送 请 求 和 接受 答复 之 间 的 时 间 进 行 精确 测量 ， 当 系统 停止 成 功 啊 应 服务 
请 求 以 及 恢复 服务 请 求 时 ， 就 必须 计算 服务 中 断 时 间 。 因 而 ， 为 了 更 准确 地 表征 服 
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图 16.2 ”服务 中 断 延迟 的 隐 含 故障 


务 影响 的 持续 时 间 ， 采 样 服务 探测 时 间 应 不 超过 1/10 的 最 大 可 接受 服务 中 断 持续 
时 间 。 


16.3 模拟 架构 缺陷 


正如 第 4 草 “ 虚 拟 化 架构 缺陷 ”所 述 ， 虚 拟 化 引入 了 能 够 影响 基于 云 的 应 用 
程序 用 户 服务 质量 上 的 架构 缺陷 。 基 于 云 的 应 用 程序 测试 应 当 验 证 应 用 程序 服务 质 
量 是 否 仍 是 可 接受 的 ， 或 是 应 用 程序 实例 是 否 会 降低 架构 性 能 。 根 据 需 要 模拟 架构 
缺陷 的 程度 ， 能 够 测试 应 用 程序 服务 质量 对 云 故障 的 敏感 性 特点 。 第 15.2 市 
“IaaS 故障 影响 分 析 ” 能 够 让 架构 师 和 测试 人 员 确 定 最 可 能 影响 服务 质量 的 故障 ， 
因此 对 那些 故障 的 模拟 机 制 在 生产 系统 为 环境 中 应 当 是 优先 的 。 
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模拟 虚拟 化 架构 的 缺陷 会 带 来 两 方面 的 挑战 : 

1) 架构 缺陷 的 最 大 度量 尺度 ， 即 应 用 程序 可 以 承受 并 且 仍 然 能 够 提供 可 接受 
的 服务 质量 。 高 端的 云 消费 者 可 能 有 最 大 允许 架构 缺陷 的 量化 要 求 ， 这 是 他 们 在 选 
择 云 服务 提供 商 时 会 考虑 的 因素 ， 而 应 用 提供 商 也 会 适当 考虑 这 样 的 要 求 。 

2) 在 云 测试 平台 上 创建 工具 或 程序 来 模拟 最 大 可 承受 的 架构 故障 程度 ， 正 如 
在 本 节 中 所 述 。VM 故障 可 以 通过 和 暂停 或 销毁 VM 实例 进行 模拟 。 无 法 交付 故障 可 
以 通过 暂停 虚拟 机 实例 进行 模拟 ， 在 模拟 无 法 交付 时 间 间 隔 过 后 ， 可 以 重新 激活 。 
VM 分 配 缓慢 或 失败 可 以 通过 暂 挂 VM 分 配 请 求 进行 模拟 ,要 么 在 传递 到 云 操 作文 
持 系统 (OSS) 之 前 延缓 ， 或 是 返回 模拟 故障 给 调用 者 。 配 置 资 源 能 力 退 化 交付 ， 
尾部 延迟 降低 ， 时 钟 事件 抖动 和 时 钟 漂移 等 情况 的 模拟 ， 都 可 以 由 相应 的 测试 工具 
和 程序 进行 。 


16.4 测试 计划 


应 用 程序 的 测试 活动 应 包括 验证 可 接受 的 行为 ， 特 点 和 性 能 的 测试 计划 。 基 于 
云 的 应 用 程序 服务 质量 测试 活动 应 包含 以 下 大 部 分 或 所 有 的 测试 类 型 

© 服务 可 靠 性 和 延迟 测试 〈 第 16.4.1 节 ) ; 

© RAR Min (第 16.4.2 市 ); 

。 健壮 性 测试 (第 16.4.3 市 ); 

© 持久 性 /稳定 性 测试 (第 16.4.4 市 ); 

。 应 用 程序 弹性 测试 (第 16. 4. 5); 

© 升级 测试 (第 16. 4.6 7); 

© 灾难 恢复 测试 (第 16.4.7 市 ); 

© 极限 共存 测试 (第 16.4.8 市 )。 


16.4.1 服务 可 靠 性 和 延迟 测试 


基本 服务 质量 测试 验证 当 应 用 程序 的 虚拟 化 架构 传输 处 于 典型 的 或 正常 的 性 
能 ， 应 用 程序 运行 在 容量 刚好 够 或 者 略 低 的 情况 下 ， 服务 可 靠 性 需求 (第 13.3 
节 ) 和 服务 延迟 需求 (第 13. 2 节 ) 是 否 得 到 满足 。 具 体 而 言 ， 这 意味 着 第 4 章 中 
虚拟 化 架构 的 缺陷 并 非 是 显著 的 。 如 果 测 试 工具 正常 测试 ,那么 服务 的 可 徘 性 及 服 
务 延 迟 可 以 通过 运行 相同 的 测试 表征 。 应 用 程序 负载 生成 工具 应 当 产 生 正 确 一 致 的 
事务 ， 并 监测 返回 代码 结果 和 事务 延迟 。 除 了 记录 发 送 不 同类 型 请 求 的 次 数 ， 测 试 
工具 应 做 到 以 下 几 点 : 

e 明确 计算 并 记录 成 功 (如 “200 OK”) 和 不 成 功 〈 包 括 其 他 ) 的 啊 应 。 这 

样 能 够 对 服务 的 可 靠 性 进行 评估 。 
。 在 足够 的 测量 “ 桶 ”中 记录 服务 延迟 计数 以 生成 有 用 的 结果 。 当 两 个 测量 
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桶 〈 比 最 大 可 接受 服务 延迟 小 ， 比 最 大 可 接受 服务 延迟 大 ) 最 低 限 度 的 能 
够 确定 不 可 接受 的 慢 事 务 速率 ， 最 好 使 用 至 少 10 个 ， 理 想 20 个 以 上 的 测 
量 桶 。 应 该 有 至 少 两 个 测量 桶 高 于 最 大 可 接受 的 服务 延迟 (其 中 一 个 能 够 
捕捉 “略微 ”大 于 最 大 可 接受 服务 延迟 ， 另 一 个 捕捉 明显 大 于 最 大 可 接受 
服务 延迟 ) ， 并 且 大 多 数 测量 桶 应 包括 在 可 接受 的 服务 延迟 时 间 范 围 内 。 可 
以 使 用 不 均匀 大 小 的 桶 (在 50% ~ 90% 的 小 桶 比 大 桶 在 “尾部 ”更 接近 最 
大 可 接受 的 服务 延迟 值 ) 。 每 个 单独 的 桶 中 应 该 有 少 于 20% 的 样品 。 数 据 
应 绘制 成 便于 分 析 的 统计 分 布 。 

如 第 16. 2.3 节 “ 统 计 和 置信 度 ” 所 讨论 的 ， 每 个 请 求 类 型 的 足够 迭代 应 记 为 用 

合理 置信 度 表征 的 特性 。 测 试 结果 应 概括 为 关键 功能 /操作 如 下 : 

e 典型 服务 延迟 ， 例 如 中 值 (50%) 或 90 多 以 及 尾部 延迟 点 ， 例 如 99.999% 
(十 万 分 之 一 中 最 慢 的 ) 。 互 补 累 计 分 布 图 是 最 好 的 。 

e 每 百 万 次 尝试 操作 出 现 不 可 接受 服务 的 比率 ,例如 “0.3 DPM ( 太 慢 了 )”， 
这 样 慢 的 事务 速率 是 不 可 接受 的 ， 将 会 报告 。 

e 正如 “3.2 DPM”， 这 样 的 全 局 事务 故障 率 会 报告 。 

© 服务 延 迟 的 尾部 具有 独特 的 特征 ， 就 好 像 是 互补 累计 分 布 图 。 

服务 可 靠 性 和 延迟 测试 也 应 该 在 以 下 过 程 中 执行 : 

。 产品。 服务 的 可 靠 性 ， 延 迟 和 中 断 应 当 在 发 布 时 进行 实时 监测 ， 从 而 确定 
应 用 程序 的 实际 流量 。 这 对 构造 版 特别 有 用 ， 正 如 第 16. 4. 11 节 “ 构 造 版 
测试 ”中 所 述 。 

e 云 服 务 提供 商 的 运营 ， 管 理 ， 维 护 和 配置 (OAM&P ) 。 当 云 服务 提供 商 维 
护 操作 (例如 实时 迁移 ， 储 备 和 扩展 ) 执行 时 ， 服 务 的 可 靠 性 ， 时 延 和 中 
断 应 当 进 行 监测 。 


16.4.2 架构 缺陷 测试 


第 15.2 节 “IaaS 缺陷 影响 分 析 ” 中 ， 定 性 描述 了 虚拟 化 架构 缺陷 对 应 用 程序 
服务 的 影响 。 染 构 缺 陷 测 试 可 以 模拟 最 大 可 接受 的 架构 故障 ， 以 验证 对 用 户 服务 的 
影响 是 可 以 接受 的 。 故 障 测试 案例 应 当 集 中 laas 缺陷 影响 分 析 (TEA) 以 说 明 影 
是 高 风险 的 ， 案 例 应 当 包括 故障 的 所 有 类 型 ， 验 证 应 用 程序 对 架构 缺陷 不 敏感 。 所 
使 用 的 测试 计划 应 确定 采用 何 种 工具 和 技术 来 模拟 架构 缺陷 〈 见 第 16.3 节 ,，“ 模 
FUR TA RBA” ) 。 


16.4.3 健壮 性 测试 


健壮 性 测试 验证 非 单一 故障 事件 引起 的 服务 影响 比 最 大 可 接受 的 服务 中 断 周 期 
影响 更 大 (在 第 13.1 节 “ 服 务 可 用 性 需求 ”中 已 讨论 )。 从 逻辑 上 讲 ， 健 壮 性 测 
试 应 该 验证 用 户 服务 故障 的 影响 并 没有 比 被 记录 在 应 用 程序 的 故障 模式 影响 分 析 
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(FMEA) 更 严重 。 健 壮 性 测试 也 应 当 验 证 应 用 程序 使 用 的 所 有 平台 即 服务 (PaaS) 
的 技术 组 件 (例如 load-Balancing-as-a-Service, Database-as-a-Service) 故障 不 比 在 
PaaS 故障 影响 分 析 (PFEA) (参见 第 15.3 节 ) 更 严重 。 

为 了 确保 测试 活动 计划 是 可 接受 并 健壮 的 ， 作 者 建议 测试 人 员 从 以 下 几 类 考虑 
测试 用 例 。 相 关 的 测试 案例 应 是 自动 测试 的 ， 也 可 以 用 作 回 归 测 试 来 验证 软件 变更 
作为 发 布 活动 管理 的 一 部 分 : 

。 VM 实例 故障 。 所 有 类 型 的 应 用 程序 VM 实例 单独 或 同时 出 现 故障 ; 

。 技术 组 件 “ 即 服务 ”故障 。 应 用 程序 使 用 的 个 别 PaaS 技术 组 件 故障 ; 

© 相 邻 噪声 和 可 变 资 源 延 迟 故障 : 

O RE VM 调度 〈 过 度 调 度 延 迟 ) ; 
O 高 卫 数 据 包 丢 失 ; 
O 磁盘 访问 缓慢 ; 
O 数据 库 访问 缓慢 ; 
O 高 时 钟 事件 抖动 ; 
© 服务 编排 错误 : 
O VM 激活 失败 ; 
O VM 到 达 即 死亡 (DOA); 
O VM 慢 局 动 ; 
O VM 实时 迁移 缓慢 ; 
© 实时 时 钟 俩 斜 : 
O 虚拟 机 托管 应 用 程序 组 件 实例 之 间 的 高 速 时 钟 深 移 ; 
O 一 些 VM 实例 中 时 钟 时 间 回 后 运行 ; 
© 应 用 程序 错误 : 
O 内 存 泄漏 或 枯竭 (包括 过 多 的 雄 片 ); 
O 共享 资源 冲突 ; 
O 紧凑 或 无 限 循环 ; 
O 远程 执行 故障 和 “ 挂 起 " ， 包 括 远程 过 程 调用 失败 ; 
O 线程 堆栈 或 地 址 空间 损坏 ; 
O 引用 未 初始 化 或 不 正确 的 指针 ; 
O 逻辑 错误 ; 
O 非 内 存 资源 泄漏 ; 
O WH Pik, MARHE; 
O 线程 挂 起 或 中 止 ; 

o 数据 错误 : 

O 文件 系统 损坏 ， 包 括 断 电导 致 磁盘 写 无 序 ; 
O 数据 库 损坏 ， 包 括 断 电导 致 磁盘 写 无 序 ; 
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O 主 备 版 本 之 间 数 据 库 不 匹配 ; 
O 记录 损坏 ; 
O 磁盘 分 区 或 文件 系统 已 满 ; 
O 持久 性 存储 故障 或 损坏 ; 
O 共享 内 存 损坏 (例如 ， 校 验 错误 ); 
O 链表 破损 ; 
O 文件 未 找到 ; 
O 文件 损坏 ; 
O 数据库 升级 失败 ; 
© TRIR: 
O 恢复 失败 ; 
O 应 用 程序 的 高 可 用 性 进程 故障 ; 
O VM 修复 失败 ; 
© MZR FER : 
O 相 邻 或 支持 的 网 络 单元 不 可 达 或 故障 ; 
O IP 数据 包 丢 弃 ，; 
O IP 数据 包 损 坏 ，; 
O 了 下 数据 包 乱 序 ; 
。 MHIR: 
O 无 效 的 协议 语法 ; 
O 无 效 的 协议 语义 ; 
O 意外 的 或 非法 的 消息 序列 ; 
O 超 范 围 参数 ， 包 括 非法 命令 代码 ; 
O 恶意 邮件 。 
Netflix 公司 已 经 推广 了 一 套 上 自动 健壮 性 测试 工具 ， 称 为 Simian Army 
[ Netflix11 | ， 其 中 包括 Chaos Monkey | Netflixl2] 能 够 用 来 随机 杀 死 组 件 实例 ， 从 
而 验证 目 动 故障 检测 和 恢复 机 制 正常 运行 。 而 关键 应 用 的 运营 商 不 太 可 能 拥有 与 
Netflix 同样 的 自由 在 他 们 的 生产 环境 中 释放 Simian Army， 人 们 可 以 在 云 中 使 用 一 
个 单独 的 应 用 程序 测试 台 释 放 的 自动 健壮 性 的 测试 工具 ， 例 如 Chaos Monkey 来 验 
证 应 用 程序 健壮 性 机 制 的 速度 和 效率 而 不 会 危及 服务 最 终 用 户 。 也 有 Monkeys 可 以 
引入 通信 延迟 和 损坏 ， 这 可 以 在 测试 床 中 释放 出 来 以 验证 网 络 问题 的 应 用 程序 
处 理 。 


16.4.4 持久 性 /稳定 性 测试 


要 模拟 产品 使 用 模式 ， 验 证 应 用 程序 在 长 期 持续 的 工作 负荷 中 是 否 能 保持 完全 
稳定 性 ， 最 好 的 做 法 是 进行 持久 性 和 稳定 性 测试 。 云 计算 能 够 使 稳定 性 测试 发 生变 
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化 ， 这 个 变化 就 是 从 静态 应 用 程序 配置 的 稳定 性 测试 即 传统 的 时 间 限 (如 72h) 转 
变 为 动态 应 用 程序 配置 的 工作 负载 约束 的 测试 ， 这 个 测试 使 得 更 多 的 数据 可 以 针对 
一 个 弹性 应 用 程序 配置 来 执行 。 基 于 云 架构 的 应 用 程序 稳定 性 测试 可 以 包括 以 下 几 
个 方面 : 
© 在 应 用 程序 和 云 服 务 提供 商 共同 支持 下 ， 持 和 久 性 测试 的 早期 ， 弹 性 增长 操 
作 以 工作 量 增长 的 最 大 增长 速率 执行 。 
© 当 应 用 程序 达到 或 接近 最 大 设计 的 容量 运行 时 间 时 执行 了 千 万 甚至 上 亿 的 
事务 。 
© 当 数 据 库 备份 或 OAM&P 活动 运行 时 ， 云 用 户 可 以 进行 操作 ， 与 此 同时 应 
用 程序 达到 或 接近 能 够 提供 给 用 户 工 作 负载 的 最 大 容量 。 
se。 (如 果 可 能 的 话 ) 当 应 用 程序 的 虚拟 机 实例 进行 独立 迁移 时 ， 云 服务 提供 商 
可 以 进行 操作 ， 以 太 网 交换 机 重启 可 以 模拟 云 服务 供应 商 的 常规 操作 。 
。 为 了 验证 在 持续 重工 作 负 载 下 能 够 快速 自动 恢复 ， 在 对 抗 阶段 虚拟 机 被 
“随机 ” 杀 挥 。 
。 当 持久 性 测试 运行 结束 时 ， 工 作 负 载 弹 性 逆 增 长 。 
图 16. 3 所 示 为 基于 云 计算 应 用 程序 的 可 视 化 持久 性 测试 案例 。 测 试 案例 包括 
以 下 几 个 阶段 : 










5. 增加 云 消费 者 操作 ， 
管理 ， 维 护 以 及 配置 ， 
en 











3. 突然 涌现 的 
工作 负载 触发 
过 载 情况 下 的 
最 大 化 弹性 增长 





9. 验证 应 用 程序 在 弹性 
逆 增 长 ， 操 作 和 健壮 性 
场景 之 后 功能 是 否 正 常 


在 线 启用 程序 容量 








1. 应 用 程序 实例 的 耐久 性 通过 明显 
的 在 线 容量 进行 初始 化 配置 





时 间 
图 16.3 基于 云 应 用 程序 的 持久 性 测试 用 例 


1) 测试 应 用 程序 就 是 实例 化 小 于 最 大 支持 在 线 容 量 。 
2) 在 启动 时 ， 应 用 程序 功能 性 “ 热 启 动 ” 校 验 已 经 完全 验证 了 应 用 程序 实例 
有 足够 的 能 力 进行 耐久 性 测试 并 完成 基本 服务 的 KQI。 
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3) 在 线 应 用 程序 容量 显著 增加 使 得 应 用 程序 出 现 过 载 并 激活 了 自动 弹性 增 
长 。 保 持 较 高 的 工作 负载 能 够 验证 应 用 程序 是 否 可 以 迅速 应 对 过 载 情况 。 

4) 名 义 上 完全 应 用 程序 容量 在 线 ， 执 行 长 时 间 的 用 户 服务 KQI 测试 ， 完 成 百 
万 或 数 十 亿 的 事务 ， 都 可 以 表征 服务 质量 性 能 的 高 可 信和 度 。 

5) 云 消费 者 的 操作 、 管 理 、 维 护 和 配置 (如 数据 库 的 备份 、 添 加 、 修 改 以 及 
删除 用 户 账户 )， 应 用 程序 和 OAMAP 操作 都 需要 进行 KOI 性 能 测量 。 

6) 对 抗 性 场景 ， 例 如 分 别 杀 死 VM 实例 验证 自动 恢复 操作 ， 并 简单 暂停 虚拟 
机 实例 从 而 模拟 架构 缺陷 。 在 整个 对 抗 性 阶段 都 需要 进行 KQI 测量 并 记录 性 能 降 
低 的 程度 。 

7) 云 服 务 提供 商 的 OAM&P 的 操作 ， 如 实时 迁移 ， 当 监控 应 用 程序 KQI 来 验 
证 这 些 操 作 既 不 会 破坏 应 用 程序 ， 也 不 会 显著 影响 应 用 程序 KQI 的 性 能 的 情况 下 ， 
这 些 操 作 就 能 够 任意 执行 。 

8) 应 用 程序 容量 的 弹性 逆 增 长 能 够 验证 在 缩减 期 间 ， 用 户 的 KQI 是 否 没 有 受 
到 重大 影响 。 

9) 最 后 一 个 “冷却 ”阶段 验证 所 有 的 KQI， 以 确保 性 能 没有 比 热 启动 和 满 负 
载 测试 阶段 降低 。 

如 图 16. 3 的 持久 性 测试 案例 实例 ， 是 基于 应 用 程序 的 使 用 概况 ， 敏 感性 ， 脆 
弱 性 和 质量 的 历史 记录 序 量 身 定制 的 。 例 如 ， 经 过 一 段 时 间 的 流量 过 载 ， 应 用 程序 
配置 的 最 大 容量 则 应 当 增加 。 自 动 测试 用 例 可 以 模仿 以 前 版 本 中 的 现场 流量 故障 模 
式 ， 这 样 应 用 程序 验证 至 少 能 够 具有 与 以 前 的 版 本 一 样 的 稳定 性 。 

服务 可 靠 性 和 所 有 操作 延迟 分 别 为 持久 性 测试 的 不 同 测量 阶段 。 而 稳定 性 测试 
则 不 是 服务 延迟 或 服务 可 靠 性 测试 的 替代 品 ， 稳 定性 测试 应 尽 可 能 记录 服务 可 靠 性 
(DPM) 数据 和 服务 延迟 数据 。 稳 定性 测试 DPM 结果 应 与 专门 的 服务 可 靠 性 测试 
相 比较 ， 如 果 出 现 差 异 ， 则 应 进一步 发 掘 原因 。 | 


16.4.5 应 用 程序 弹性 测试 


通过 几 个 测试 场景 对 应 用 程序 弹性 功能 和 需求 进行 验证 ( 见 第 13.8 节 ，“ 弹 
性 需求 ”) : 

1) 验证 弹性 需求 〈 见 第 13. 8 节 ,，“ 弹 性 需求 " ) 是 否 满足 所 有 支持 服务 和 存 
储 容 量 弹性 增长 和 逆 增 长 的 操作 。 

2) 第 8.11 和 节 “ 弹 性 故障 场景 ”中 的 弹性 故障 场景 讨论 验证 了 应 用 程序 服务 
能 够 从 故障 中 恢复 正常 。 

3) 验证 用 户 服务 质量 需求 满足 整个 弹性 服务 容量 和 存储 增长 ， 所 提供 的 工作 
负载 不 会 过 快 增长 从 而 激活 应 用 程序 的 过 载 控制 机 制 。 

4) 验证 用 户 的 服务 质量 需求 满足 整个 支持 弹性 逆 增 长 操作 。 

5) 验证 当 应 用 程序 过 载 时 ,快速 弹性 机 制 操作 能 够 最 终 减 轻 负载 (前提 是 所 
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提供 的 负载 小 于 应 用 程序 的 最 大 上 限 容 量 ) 。 

6) 验证 发 生 在 弹性 容量 逆 增 长 操作 时 流量 激增 能 够 得 到 管理 。 

7) 验证 弹性 容量 增长 操作 的 组 件 故障 能 够 得 到 管理 。 

8) 验证 弹性 容量 逆 增 长 (缩减) 操作 的 组 件 故 障 能 够 得 到 管理 。 

需要 注意 的 是 ， 分 布 式 拒绝 服务 (DDoS) 攻击 很 可 能 像 多 次 洪水 袭击 一 样 ， 
超过 正常 工作 负载 的 应 用 程序 实例 比 普通 的 流量 波动 更 剧烈 。 应 用 程序 往往 部 署 在 
安全 设备 之 上 ， 如 防火 墙 和 深度 包 检 测 (DPI) 引擎 ， 这 些 安全 设备 应 能 够 缓冲 
DDoS 攻击 的 冲击 。DDoS 和 其 他 安全 攻击 场景 应 明确 验证 为 安全 测试 的 一 部 分 。 


16.4.6 升级 测试 


虽然 每 个 软件 升级 策略 都 要 求 测试 验证 并 测量 升级 过 程 中 的 任何 会 话 或 数据 的 
掉 线 或 丢失 ,但 也 有 一 些 特殊 的 测试 。 

对 于 类 型 1, “街区 聚会 ”软件 升级 〈 见 第 9. 3. 1 节 “ 工 型 云 支持 升级 策略 : 
街区 聚会 ”) 的 测试 ， 必 须 确认 以 下 内 容 : 

© 新 版 本 实例 的 安装 和 初始 化 不 影响 在 旧版 本 上 运行 的 流量 ; 

© 对 于 特定 版 本 实例 存在 一 个 配置 和 分 配 流量 的 策略 ; 

。 同一 时 间 流 量 可 以 在 多 个 版 本 中 运行 ; | 

© 版 本 数据 添加 、 更 新 或 删除 不 影响 其 他 版 本 的 数据 完整 性 。 

对 于 类 型 三， “每 车 一 司机 ”软件 升级 (WB 9.3.2 节 “ 开 型 云 支持 升级 策 
略 : 每 车 一 司机 ”) 的 测试 ， 必 须 确认 以 下 内 容 : 

© 目标 版 本 的 软件 和 数据 可 以 在 不 破坏 当前 版 本 的 应 用 程序 服务 进行 实例 化 。 

© 流量 可 以 从 原始 版 本 中 耗 尽 并 重 定向 到 可 接受 的 最 大 服务 中 断 时 间 内 的 目 

标 释 放 〈 见 第 13. 1 节 “ 服 务 可 用 性 需求 ”) 。 


16.4.7 灾难 恢复 测试 


灾难 性 事件 能 同时 影响 运行 在 单一 云 数据 中 心 的 所 有 用 户 应 用 程序 ， 所 以 应 该 
定期 模拟 激活 灾难 恢复 ， 以 验证 恢复 目标 与 恢复 点 分 析 (第 15.8 节 “ 恢 复 点 目标 
分 析 ”) 和 恢复 时 间 分 析 (第 15.9 节 “ 恢 复 时 间 目 标 分 析 ”) 是 一 致 的 。 测 试 应 该 
测量 以 下 实际 服务 的 影响 : 

“1) 非 计 划 站 点 故障 〈 即 无 有 序 准 备 ) 。 

2) 有 序 的 站 点 切换 〈( 即 在 该 站 点 进行 重大 维护 操作 前 将 当前 站 点 下 线 )。 

3) 有 序 的 元 余 切换 〈 即 在 灾难 事件 或 重大 维护 操作 之 后 ， 离 线 修复 的 站 点 恢 
复 服 务 ) 。 


16.4.8 极限 共存 测试 
正如 第 7.3 节 “ 极 限 共 存 解决 方案 ”所 讨论 的 ， 极 限 共 存 意味 着 多 个 应 用 程 
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序 组 件 都 整合 到 单一 的 虚拟 化 架构 ， 这 样 虚拟 机 服务 器 的 故障 会 同时 影响 多 个 解决 
方案 组 件 。 因 为 ， 不 论 是 云 消 费 者 还 是 应 用 程序 提供 商都 拥有 明确 的 控制 权 ， 云 服 
务 提供 商 如 何在 整个 云 服务 提供 商 的 虚拟 化 架构 分 发 应 用 程序 组 件 实 例 ， 应 用 程序 
必须 准备 从 任何 可 能 出 现 的 极端 共存 配置 中 恢复 。 因 此 ， 各 种 极端 共存 故障 情形 应 
当 进行 测试 ， 以 验证 用 户 服务 没有 受到 不 可 接受 的 影响 。 极 限 共 存 配置 的 解决 方案 
在 一 些 特殊 的 配置 过 程 中 是 必须 的 ， 之 后 还 会 对 架构 故障 进行 模拟 。 


16.4.9 PaaS 技术 组 件 测试 


正如 在 第 15.3 节 “PaaS 故障 影响 分 析 ” 所 讨论 的 ，PasS 技术 组 件 可 以 包含 在 
解决 方案 中 。 这 些 组 件 的 故障 可 能 对 应 用 程序 服务 产生 影响 ; 因此 ， 应 用 程序 必须 
准备 处 理 这 些 故障 。Paas 技术 组 件 测试 包括 在 PFEA 中 确定 PaaS 组 件 故障 情况 ， 
以 核实 故障 用 户 服务 的 影响 是 可 以 接受 的 。 正 如 第 16.4.3 节 “ 健 壮 性 测试 ”所 讨 
论 的 , 一 组 完整 的 回归 测试 应 重点 放 在 PFEA 风险 最 高 的 故障 情形 。 


16.4.10 自动 回归 测试 


为 了 确保 软件 或 配置 的 更 改 不 会 导致 新 问题 的 产生 ， 自 动 回 归 测 试 应 当 在 生产 
环境 中 对 变更 进行 验证 。 当 支持 持续 交付 时 ， 确 保 引 入 新 的 软件 对 活动 系统 不 产生 
负面 影响 尤其 重要 。 可 能 的 测试 示例 在 第 16.4.3 三 “健壮 性 测试 ”中 进行 了 


介绍 。 


16.4.11 构造 发 布 测试 


构造 发 布 提供 了 在 生产 环境 下 监控 一 小 部 分 早期 用 户 使 用 情况 得 到 的 应 用 程序 
质量 。 正 如 第 16. 4. 1 节 “ 服 务 可 靠 性 和 延迟 测试 ”中 所 讨论 的 ， 有 必要 进行 服务 
的 可 靠 性 和 延迟 测试 ， 同 时 ， 通 过 KQI 监测 和 分 析 来 确定 发 布 版 的 质量 ， 并 判断 
当 用 户 数量 增加 是 否 需 要 对 应 用 程序 做 进一步 的 修改 。 


第 17 T 关键 点 连 车 接 与 总 结 


本 书 的 第 工 部 分 介绍 了 由 于 虚拟 化 和 云 计算 产生 的 面向 资源 服务 缺陷 ， 以 及 基 
于 云 的 应 用 可 以 降低 面向 用 户 服务 的 风险 。 第 开 部 分 系统 地 分 析 了 这 些 风险 ， 第 下 
部 分 给 出 建议 降低 这 些 风 险 对 终端 用 户 服务 的 影响 。 本 章 总 结 了 这 三 个 部 分 的 关 
键 点 。 


17.1 应 用 程序 服务 质量 所 面临 的 挑战 


终端 用 户 一 般 不 关心 应 用 程序 是 否 部 署 在 传统 的 架构 或 云 架 构 之 上 。 假 设 对 于 
两 个 部 署 方案 用 户 服务 质量 需求 是 一 致 的 。 通 过 应 用 程序 的 资源 服务 边界 与 部 署 在 
非 虚拟 化 的 硬件 配置 的 比较 得 知 ， 云 部 署 带 来 了 额外 的 缺陷 (在 第 4 章 中 虚拟 化 
架构 缺陷 中 讨论 ) 。 

如 图 17. 1 (等同 于 图 4.1) 所 示 ， 这 些 故障 包括 : 






= 






1.VM 故 障 
2. 容 量 无 法 交付 
3. 退 化 交付 容量 
4. (HK) 尾部 延迟 
5. 时 钟 事件 抖动 
6. 时 钟 漂移 

7. 错 误 的 资源 分 配 








图 17. 1 基于 云 应 用 程序 虚拟 化 架构 缺陷 


。 虚拟 机 故障 (第 4.2 节 ): 如 同 传统 的 硬件 ， 虚 拟 机 也 有 可 能 发 生 故 障 。 

© 无 法 交付 的 虚拟 机 配置 容量 (第 4.3 节 ): 例如 ， 虚 拟 机 简单 地 停止 操作 
《又 名 “停止 )。 

。 交付 退化 的 虚拟 机 容量 〈 第 4.4 节 ): 例如 ， 当 一 人 台 特 定 的 虚拟 机 服务 融 出 
现 了 拥塞 时 ， 一 些 应 用 程序 IP 数据 包 会 被 主机 操作 系统 或 虚拟 机 管理 程序 
EF 0 
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© 资源 传送 的 附加 尾部 延迟 (第 4.5 节 )); 例如 ， 一 些 应 用 程序 组 件 偶尔 可 能 
会 经 历 非常 长 的 资源 访问 延迟 。 
时 钟 抖 动 〈 第 4.6 节 ): 例如 ， 定 期 时 钟 事件 中 断 ( 例 如， 每 lms) 可 能 造 
成 缓慢 或 聚 结 。 
时 钟 漂移 〈 第 4.7 节 ): 客户 机 操作 系统 的 实时 时 钟 与 UTC RUE. 
失败 或 缓慢 的 虚拟 机 实例 分 配 和 局 动 〈 第 4.8 节 )。 例 如 ， 新 分 配 的 云 资 源 
可 能 不 起 作用 (又 名 到 达 即 死亡 [LDOA] ) 。 

如 图 17.2， 创 建 一 个 健壮 的 应 用 程序 满足 面向 用 户 服务 质量 指标 (参见 第 2. 5 
节 ) 是 一 个 挑战 。 云 服务 供应 商 提供 一 个 应 用 程序 ， 它 的 面向 资源 服务 可 能 存在 
一 些 缺 陷 ， 例 如 服务 可 用 性 ， 服 务 延 迟 和 服务 的 可 靠 性 等 方面 。 


健壮 的 启用 程序 可 以 最 小 化 面向 用 户 服 务 边 界 的 缺陷 ， 例 如 可 用 性 、 可 靠 性 以 及 延迟 





通过 面向 资源 服务 边界 服 
务 缺 陷 传递 给 应 用 程序 、 
rae 






图 17.2 应 用 程序 健壮 性 挑战 


由 架构 提供 的 面向 资源 服务 质量 从 根本 上 驱动 应 用 程序 的 体系 结构 选择 。 例 如 
两 轮 驱 动 汽车 适用 于 在 维护 良好 的 道路 上 驾驶 ， 但 在 地 形 不 断 变 换 的 未 铺设 的 道路 
上 ， 就 需要 具有 四 轮 驱 动 的 系统 和 重型 悬挂 系统 的 汽车 。 同 样 的 ， 在 选择 一 个 应 用 
程序 的 体系 结构 时 ， 应 当 考 虑 云 架 构 的 缺陷 以 确保 其 可 行 性 。 即 使 架构 存在 缺陷 ， 
也 应 当 尽 可 能 满足 面向 用 户 服务 质量 的 期 望 。 


17.2 ”元 余 和 健壮 性 


通过 云 实现 的 应 用 提供 了 丰富 的 、 灵 活 的 、 有 弹性 的 资源 。 考 虑 范围 更 广 的 宛 
余 选 项 ， 可 以 提高 服务 的 稳定 性 。 从 根本 上 说 ， 有 四 个 元 余 模 型 可 通过 应 用 程序 组 
件 部 署 : 
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云 应 用 中 的 服务 质量 


。 和 何 单 架 构 。 单 个 组 件 实例 充当 一 个 或 多 个 用 户 ， 如 果 这 个 实例 失败 ， 那 么 


受 影响 的 组 件 必须 在 用 户 服务 恢复 前 进行 修复 。 虚 拟 化 和 基于 云 的 快速 自 
动 修复 Repair-as-a-Service (修复 即 服 务 ) (参见 5. 3 节 通 过 虚拟 化 改进 架构 
修复 时 间 ) 能 够 减少 服务 恢复 时 间 ， 将 修复 时 间 从 数 小 时 减少 到 数 分 钟 或 
更 少 ， 显 著 提 高 了 简单 架构 服务 的 可 用 性 。 

顺序 元 余 。 增 加 备用 组 件 实例 作为 元 余 ， 它 可 以 为 用 户 提供 服务 ， 而 无 须 
事先 修复 故障 的 (单一 的 ) 组 件 。 在 顺序 元 余 中 〈 见 图 17.3) ， 每 个 请 求 
由 单个 组 件 实例 响应 ， 如 果 该 组 件 实例 失败 ， 则 以 对 用 户 影响 最 少 为 原则 
将 服务 转移 到 元 余 组 件 实例 。 这 种 元 余 模 式 将 故障 检测 和 恢复 服务 单元 
“B1” 的 故障 放 在 了 用 户 服务 传递 的 关键 路 径 上 ， 即 在 该 请 求 被 重 定向 到 
见 余 的 在 线 组 件 实例 (例如 ,“B2”) 之 前 ， 先 检测 了 不 可 用 的 服务 组 件 
(“B1”) ， 因 此 故障 能 够 被 排除 。 


向 客户 端 提供 服务 
“B” 的 服务 器 实例 池 
r 


单个 实例 提供 服务 





图 17.3 顺序 (传统 ) NAR 


并 发 元 余 〈 见 图 17.4) 。 每 个 客户 端 请 求 同 时 逻辑 多 播 到 几 个 在 线 服 务 右 
组 件 实例 。 因 此 每 个 客户 端 请 求 的 元 余 副 本 并 发 处 理 。 在 这 种 结构 中 客户 
端 “A” 的 逻辑 是 比 传统 的 元 余 更 复杂 ， 因 为 它 必须 同时 多 点 传送 请 求 到 
几 个 服务 器 组 件 实例 ， 然 后 通过 这 些 返回 选择 一 个 啊 应 使 用 。 当 几 个 组 件 
实例 并 行 处 理 相同 的 请 求 时 ， 服 务 器 实例 架构 的 设计 必须 可 以 有 效 地 处 理 
出 现 的 挑战 。 相 比 连续 的 元 余 架 构 ， 并 发 元 余 染 构 能 够 更 有 效 地 缓解 组 件 
故障 ， 因 为 故障 检测 和 恢复 不 再 在 关键 服务 路 径 进 行 。 即 使 该 组 件 实例 中 
有 一 个 故障 ， 也 会 最 少 有 一 个 成 功 的 响应 能 够 被 客户 端 “A” 通 过 运算 组 
件 实例 及 时 收 到 。 而 不 必 等 竺 检测 组 件 实例 失败 后 重 试 请 求 到 另 一 个 组 件 
实例 。 除 了 这 种 服务 可 用 性 方面 的 优点 ， 元 余 架 构 可 以 有 效 地 缓解 一 些 虚 
拟 化 架构 的 缺陷 ， 如 虚拟 化 资源 未 投递 或 退化 传递 (又 名 VM 出 错 [hic- 
cup] 或 抛锚 [stall] ) 。 因 为 至 少 一 个 组 件 实例 是 全 面 运行 的 ， 并 且 可 以 返 
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回 一 个 提示 成 功 的 啊 应 到 客户 端 。 


向 客户 端 提供 服务 
o AB RAEAN 







在 并 发 元 余 操作 中 ， 每 个 
独立 事件 被 逻辑 上 多 播发 
送 ， 被 两 台 或 多 台 服 务 器 

上 的 实例 同时 并 行 处 理 | 有 有 


图 17.4 并 发 元 余 


。 混合 并 发 元 余 〈 见 图 17.5) 。 客 户 机 可 以 发 送 一 个 请 求 到 单个 服务 实例 并 
等 待 一 回复 ， 而 不 是 逻辑 上 通过 并 发 多 重 元 余 组 件 服务 同时 处 理 每 个 请 求 
副本 的 多 点 传送 。 如 果 选 定 的 服务 实例 在 保护 时 间 Toverlap (也 许 是 第 99 
百 分 位 的 延迟 时 间 ) 内 不 回应 ， 则 该 请 求 被 发 送 到 另 一 个 服务 实例 ， 客 户 
端 使 用 第 一 个 被 接收 的 响应 。 这 种 混合 并 发 的 方式 减轻 故障 和 架构 缺陷 带 
来 的 服务 影响 ， 它 比 通过 缩短 故障 检测 时 间 方 式 的 顺序 元 余 方 法 更 好 。 相 
比 并 行 元 余 ， 混 合并 发 元 余 带 来 稍 长 的 用 户 服务 延迟 ， 无 论 是 正常 还 是 故 
障 工作 期 间 。 混 合并 发 元 余 消 耗 更 少 的 资源 ， 原 因 是 相 比 处 理 每 个 请 求 多 
次 的 “全 ”并 发 元 余 ， 该 方式 对 绝 大 多 数 客户 端 请 求 的 处 理 只 有 一 次 。 










客户 “An 客户 “BI” . 客户 “B2” 
… 请 求 

如 果 重 倒计时 器 超 a Te 全 

时 ， 客 户 未 收 到 响 

应 ， 则 会 向 另 一 台 

服务 器 发 送 相同 的 人 | 请 求 ， 

rs OS EL 
«2, | 

客户 接收 到 第 一 个 名 

义 上 成 功 的 响应 = 
| 


客户 丢弃 较 慢 的 响应 


图 17.5 包含 慢 啊 应 的 混合 并 发 
基于 云 的 应 用 无 法 妨 受 单纯 的 组 件 故障 带 来 的 用 户 服务 影响 或 是 中 断 。 因 此 修 


2 


È 


云 应 用 中 的 服务 质量 


复 作 为 一 种 服务 运行 机 制 应 该 部 署 元 余 架 构 。 混 合并 发 元 余 提 供 比 顺 序 元 余 更 好 的 
服务 质量 。 因 为 它 有 效 地 减轻 了 尾部 延迟 事件 。 尽 管 耗费 更 多 的 资源 ， 但 并 发 元 余 
在 混合 并 发 元 余 健壮 性 的 优点 上 改善 服务 延迟 。 


17.3 ”可 伸缩 性 设计 


快速 弹性 使 应 用 程序 能 够 得 到 额外 的 在 线 资源 从 而 满足 负载 的 增加 需求 。 如 第 
8 章 “容量 管理 ”中 的 讨论 ， 设 计 弱 耦合 组 件 能 有 效 的 促进 水 平 增长 和 逆 增 长 。 如 
第 6 章 ” 负 载 分 配 与 均衡 " 中 的 讨论 ， 负 载 均衡 器 可 以 跨越 服务 组 件 的 弹性 池 方 
便 的 进行 工作 负载 分 配 。 从 服务 组 件 实例 中 移动 应 用 程序 状态 信息 到 一 个 具有 高 可 
用 性 的 易 失 数据 注册 表 ， 该 注册 表 被 所 有 应 用 程序 实例 服务 组 件 池 共享 ， 从 而 提高 
应 用 状态 的 可 伸缩 性 。 

正如 在 第 7 章 “故障 容器 ”中 的 讨论 ，VM 资源 是 从 底层 物理 资源 中 虚拟 分 离 
而 出 。 因 此 ， 应 用 程序 组 件 被 设计 成 在 VM 实例 中 运行 ， 其 大 小 被 设置 为 适当 的 容 
量 增长 单位 ， 并 禁止 故障 虚拟 机 实例 占用 ， 从 而 满足 商业 化 服务 质量 的 要 求 。 


17.4 可 扩展 性 设计 


弹性 和 虚拟 化 使 基于 云 的 应 用 软件 升级 采取 完全 不 同 的 策略 ， 可 分 配 足够 的 额 
外 资源 来 安装 升级 一 个 新 的 独立 应 用 程序 实例 ， 并 同时 运行 (EER) 当前 版 
本 。 正 如 第 9 章 “ 发 布 管理 ”中 讨论 ， 首 选 策略 ， 作 者 称 之 为 1 型 “街区 聚会 ” 
( 见 第 9.3.1,“ 工 型 云 支持 升级 策略 : 街区 聚会 ”和 图 17.6) 是 指 分 配 、 安 装 、 


1. 发 布 版 “N+/” 应 用 程序 实例 在 容量 充裕 的 
情况 下 被 创建 用 于 进行 浸泡 测试 


2. 浸 泡 测 试 成 功 后 ， 新 的 会 话 指向 发 布 版 
“N+1” 应 用 程序 实例 


3. 发 布 版 “N+1” 的 资源 使 用 随 着 客户 连接 接 gag 

弹性 增长 ， 而 发 布 版 “N” 的 资源 使 用 则 缩减 | 
发 布 版 “N” 在 线 

4. 最 终 ， 发 布 版 “N ”的 应 用 程序 实例 停止 ， e 

剩余 资源 重新 分 配 ly N 


图 17.6 类 型 I “街区 聚会 ”升级 策略 





发 布 版 “N+I” 
ee 
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配置 、 激 活 以 及 对 新 的 或 是 升级 的 应 用 程序 实例 做 浸泡 测试 或 是 将 用 户 流 量 中 的 一 
部 分 进行 迁移 ， 原 则 为 对 现 有 的 应 用 程序 实例 干扰 最 少 ， 直 到 用 户 服 务 完全 迁移 到 
新 实例 。 

“街区 聚会 ”不 仅 便于 持续 软件 交付 ， 也 使 云 用 户 能 够 轻松 地 体验 他 们 的 服 
务 。 例 如 ， 一 个 应 用 程序 可 被 修改 以 试用 略微 不 同 的 网 页 布局 或 优化 结构 。 将 其 部 
署 到 实时 用 户 业 务 ， 比 较 A/B 应 用 的 关键 质量 指标 (KQI) 来 评 佑 变化 。 


17.5 故障 设计 


VM 实例 比 本 地 硬件 更 频繁 的 陷 人 故障 ， 因 为 虚拟 机 管理 程序 和 额外 的 云 计算 
软件 往往 在 应 用 程序 的 虚拟 机 实例 和 底层 硬件 之 间 的 关键 路 径 上 。 此 外 ， 以 复杂 的 
软件 系统 和 云 服 务 提供 商 部 署 的 操作 策略 所 支持 的 虚拟 化 基础 架构 环境 会 因 某 种 原 
因而 失败 ， 这 将 会 影响 虚拟 机 主机 应 用 组 件 。 因 此 ， 相 比 传统 的 部 署 ， 应 用 组 件 应 
该 做 好 准备 应 对 更 频繁 的 严重 故障 。 

供应 商 和 用 户 基 于 云 的 应 用 程序 故障 设计 基本 原则 应 该 考虑 有 以 下 几 个 方面 : 

© 设计 故障 容器 。 ee 从 而 避免 级 联 故 障 的 发 

生 ( 见 第 7 章 ,“ 故 障 容器 “ 

o 设计 故障 诊断 。 应 用 程序 应 "a 快速 检测 故障 并 激活 恢复 的 机 制 ， 

且 尽 量 减 少 静默 或 挂机 故障 的 风险 。 云 用 户 不 应 依靠 终端 用 户 进行 故障 检 
测 并 发 现 应 用 程序 错误 。 
服务 有 效 性 设计 。 可 以 通过 自动 故障 检测 和 服务 恢复 将 用 户 服务 故障 的 
影响 快速 最 小 化 。 在 线 元 余 组 件 自 动 恢 复 服 务必 然 比 单一 措施 快 ， 尤 其 
是 自动 修复 作为 一 种 服务 机 制 使 用 的 时 候 ms 应 用 程序 元 余 和 
云 计 算 ”) 。 
应 用 程序 修复 设计 。 为 了 减缓 (虚拟 机 与 传统 的 硬件 比较 ) 在 提高 云 消费 
者 的 运营 支出 (OPEX) 中 导致 高 故障 率 的 影响 ， 自 动 VM 修复 作为 一 种 服 
务 或 自 愈 机 制 应 该 被 采用 (请 参见 第 5.2 节 “ 通 过 虚拟 化 改进 软件 修复 时 
间 ” 和 第 5.3 节 “ 通 过 虚拟 化 改进 架构 修复 时 间 ”) 。 

根据 定义 ， 系 统 陷 入 故障 时 是 一 个 无 法 预知 的 状态 ， 因 此 故障 事件 是 杂乱 的 。 
应 采用 大 量 的 测试 以 保证 可 以 迅速 可 靠 的 进行 故障 围 堵 、 检 测 、 恢 复 和 修复 。 幸 运 
的 是 ， 云 计算 能 够 使 得 测试 用 例 进行 应 用 实例 健壮 性 测试 ， 而 完全 不 影响 实时 用 户 
服务 。 可 以 承受 在 生产 系统 上 进行 健壮 性 测试 风险 的 服务 ， 在 生产 系统 上 使 用 部 署 
在 应 用 上 的 测试 工具 ， 如 Simian Army 即 Netflix， 可 从 频繁 健壮 性 验证 机 制 中 获 益 。 
在 产品 系统 容忍 十 分 有 限 的 验证 服务 ， 应 限制 它们 对 生产 系统 的 测试 以 进行 周期 性 
灾 备 演练 。 
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17.6 规划 注意 事项 


如 [Car] Wit, 云 计算 在 信息 和 通信 技术 (ICT) 行业 代表 了 一 个 “大 转 
变 " 。 这 将 最 终 影响 企业 如 何 利用 信息 技术 。 [TOGAF] 给 出 了 四 种 架构 : 业务 、 
应 用 、 数 据 和 技术 。 所 有 这 四 种 架构 将 演变 为 企业 需求 、 顾 客 和 市 场 需求 以 及 技术 
和 生态 系统 的 发 展 。 因 此 ， 企 业 领 导 者 必须 规划 这 些 相关 架构 的 演变 。 在 保证 进度 
和 成 本 的 限制 下 ， 以 便 应 用 程序 、 数 据 和 技术 架构 以 可 接受 的 服务 质量 支持 业务 需 
求 。 这 样 一 来 ， 应 用 程序 的 云 意识 (参见 3.7 节 ， “Cloud Awareness”) 更 可 能 是 

一 个 不 断 发 展 的 过 程 ， 而 不 是 单一 的 大 爆炸 事件 。 考 虑 重新 编写 云 应 用 ， 应 该 抛 开 
传统 架构 的 假设 ， 以 友好 云 的 架构 原则 ， 如 [Birman], [CCPP], [ ODCA_DCCA | 
和 [Varia]. | 
以 下 建议 能 够 保证 基于 云 应 用 的 可 行 性 和 可 能 性 以 持续 实现 服务 质量 预期 。 
© 明确 定义 服务 质量 需求 。 系 统 化 的 体系 结构 ， 人 分析， 设计 和 定性 和 定量 的 
测试 需求 。 可 验证 的 应 用 服务 质量 需求 基准 测试 (参见 第 13 章 “ 应 用 程序 
服务 质量 需求 ”) 是 任何 高 服务 质量 的 应 用 程序 基础 。 
© 应 用 程序 架构 设计 : 
O 包容 ， 检 测 ， 恢 复 和 修复 不 可 避免 的 故障 ( 见 第 5 章 , “应 用 程序 元 
和 云 计算 ,” 和 第 7 章 ,， “故障 容器 ”); 
O 在 线 容量 平稳 增长 和 逆 增 长 ( 见 第 8 章 , “容量 管理 ”和 第 6 章 “ 负 载 
分 配 和 平衡 ”) ; 
O 支持 “街区 聚会 ”发 布 管理 ( 见 第 9 章 “ 发 布 管理 ”) ; 
O 监控 虚拟 化 染 构 的 性 能 以 便服 务 出 现 故 障 或 扣 坏 时 进行 根源 分 析 (参见 
第 14 章 ,“ 虚 拟 化 架构 度量 和 管理 ”) 。 
© 分 析 应 用 程序 的 体系 结构 ， 以 保证 不 断 满 足 服务 质量 要 求 产品 部 署 的 可 行 
性 和 可 能 性 。 
在 第 15 章 “ 基 于 云 的 应 用 程序 分 析 ” 中 进行 了 详细 完整 的 分 析 。 
RD 
O IaaS 缺陷 影响 分 析 (第 15.2 节 ) ; 
O PaaS 故障 影响 分 析 (第 15.3 节 ) ; 
O 工作 负载 分 布 分 析 (第 15.4 市 ); 
O 反 关 联 性 分 析 (第 15.5 7); 
O 弹性 分 析 (第 15. 6 节 ) ; 
O 发 布 管理 的 影响 效应 分 析 (第 15.7 节 ); 
O 恢复 点 目标 分 析 (第 15.8 节 ) ; 
O 恢复 时 间 目 标 分 析 (第 15.9 WW). 
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e KIRAR. B16 章 ,“ 测 试 注意 事项 ”中 讨论 了 传统 部 署 没 有 的 增 
量 测试 。 这 保证 了 部 署 到 云 的 应 用 程序 能 提供 可 靠 的 服务 质量 。 除 了 功能 
测试 ， 在 应 用 程序 的 测试 中 应 当 包括 : 

O 服务 可 靠 性 和 延迟 测试 (第 16.4.1 节 ); 

O 染 构 缺陷 测试 (第 16.4.2 FF) ; 

O 健壮 性 测试 (第 16.4.3 71); 

O 持久 性 /稳定 性 测试 (第 16.4.47); 

O 应 用 程序 弹性 测试 (第 16. 4.5 节 ); 

O 升级 测试 (第 16.4.6 节 ); 

O 极限 共存 测试 (第 16.4.8 47). 

不 断 地 质量 改进 。 对 于 云 计 算 来 说 故障 设计 是 与 持续 的 质量 改进 相伴 随 的 。 
当 故 障 不 严重 时 ， 系 统 往往 可 以 检测 和 自动 恢复 正常 。 但 至 少 一 个 用 户 会 
受到 故障 的 影响 。 

如 宁 部 署 得 当 ， 故 障 设计 可 能 会 局 动 故障 处 理事 件 ， 用 最 小 的 服务 影响 自动 解 
决 ， 否 则 可 能 已 经 产生 严重 中 断 。 需 要 注意 的 是 ， 以 最 小 的 影响 不 等 同 于 无 影响 。 
通常 情况 下 ， 最 小 服务 影响 的 事务 故障 和 一 个 极为 缓慢 的 事务 将 会 融合 成 慢性 服务 
障碍 。 面 对 突 发 业务 故障 ， 先 进 企业 努力 推动 后 台 故 障 服 务 水 平 向 一 流 发 展 。 这 也 
将 推动 慢性 服务 故障 改进 回 一 流水 平 发 展 。 改 进 方法 如 下 : 

1) 测量 服务 性 能 ; 

2) 服务 故障 的 Pareto 分 析 ; 

3) 影响 服务 问题 的 根源 分 析 ; 

4) 部 署 纠 正 以 防止 复发 服务 问题 ; 

5) 重复 。 


17.7 传统 应 用 的 演化 


本 节 讨 论 已 成 功 从 本 机 人 硬件 配置 部 车 到 云 ， 且 可 以 提供 可 媲美 现 有 或 传统 应 用 
程序 服务 质量 的 〈 参 见 第 3.7 节 “ 云 意识 ”) 应 用 所 面临 的 挑战 。 鉴 于 此 任务 的 复 
杂 性 ， 且 商业 现实 与 动态 市 场 客 户 的 持续 支持 是 相互 关联 的 ， 大 多 数 应 用 程序 供应 
商 和 去 用 户 将 传统 的 (本 地 ) 完全 部 署 到 云 ， 一 般 采 用 多 个 应 用 程序 逐步 部 署 的 
方法 过 度 ， 而 不 是 采取 一 个 单一 的 “大 爆炸 ” 似 的 发 布 。 图 17. 7 说 明了 示例 应 用 
程序 演化 的 时 间 轴 ， 从 阶段 0 开始 。 现 有 的 传统 应 用 程序 只 在 本 机 硬件 部 署 ， 之 后 
不 断 发 展 为 云 意 识 的 几 个 版 本 。 

。 阶段 0: 传统 应 用 (第 17.7.1 节 )。 定 量 地 表征 本 地 部 署 应 用 程序 中 的 关 

健 用 户 服务 质量 指标 ， 帮 助 应 用 程序 设计 人 员 、 开 发 人 员 和 测试 人 员 对 程 
序 性 能 有 一 个 准确 的 了 解 。 
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[阶级 V: 完美 的 VM 迁移 |] 
' 支持 现场 Ym 迁移 简化 云 操 作 
[ MAN: 自动 弹性 | 
» 弹性 策略 和 MOP 支 持 完全 自动 化 的 弹性 
[ MAM: 自动 软件 升级 |] 
* 至 少 在 软件 补丁 和 升级 安装 能 够 实现 自动 化 
ee 手动 弹性 | 
“能够 手动 MOP 实 现在 线 服 务 容 量 的 弹性 增长 和 增长 
[ 阶级 1: 应 用 在 虚拟 化 架构 之 E | 
: 通过 传统 的 弹性 增长 / 逆 增 长 和 发 布 管理 程序 将 应 用 程序 “简单 ”的 移植 到 虚拟 架构 上 


，“ 现 有 应 用 程序 的 基线 性 能 


ete 


oo 时 间 
图 17.7 传统 应 用 程序 的 阶段 性 演化 示例 


。 阶段 1: 虚拟 化 架构 上 的 高 服务 质量 (第 17.7.2 节 )。 第 一 个 步骤 ， 当 构 
建 云 架构 时 保证 该 应 用 程序 提供 可 接受 的 服务 给 用 户 。 

。 KEI: 手动 应 用 弹性 (第 17.7.3 节 )。 对 于 传统 应 用 来 说 ， 在 线 弹 性 容 
量 增长 和 逆 增 长 往往 具有 挑战 性 。 富 有 弹性 的 云 应 用 程序 有 两 种 : 

A. 手动 扩展 或 收缩 的 应 用 程序 容量 ; 

B. 策略 的 、 机 制 的 、 集 成 的 使 那些 弹性 增长 和 逆 增 长 的 程序 可 靠 地 自动 执行 
而 无 需 人 工 参 与 。 

为 了 尽量 减少 对 用 户 服务 影响 的 风险 ， 提 供 关 键 服务 的 诸多 应 用 服务 提供 商会 
需要 手动 执行 弹性 增长 和 逆 增 长 程序 ， 直 到 程序 被 证 明 是 足够 可 靠 的 和 确定 的 。 这 
样 自然 不 会 危及 应 用 服务 提供 商 的 声誉 。 手 动弹 性 应 用 控制 使 云 消 费 者 能 够 轻松 地 
在 达到 预期 负载 前 扩展 应 用 程序 的 容量 〈 例 如 Cyber Monday 电子 商务 网 站 ) ， 并 在 
需求 过 后 方便 地 减少 网 络 容 量 。 采 用 机 制 、 策 略 、 管 理 来 自动 触发 容量 增长 和 逆 增 
长 事件 ， 在 容量 逆 增 长 中 可 能 强制 释放 资源 。 自 动 控制 的 其 他 细节 都 在 第 17.7.5 
节 “ 阶 段 W : 自动 应 用 弹性 ”中 进行 阐述 。 

e KEI: 自动 发 布 管理 (第 17.7.4 节 )。 发 布 管理 通常 包括 数据 演进 ， 在 

这 个 阶段 应 该 是 自动 的 。 但 供应 商 保留 在 主要 版 本 升级 中 依赖 于 一 些 手 工 
操作 的 选项 ， 特 别 是 在 如 果 应 用 程序 故障 需要 决定 是 否 修复 或 继续 时 。 
。 KEN: 自动 应 用 弹性 (第 17.7.5 节 )。 一 旦 阶段 下 的 弹性 增长 和 逆 增 长 
程序 被 证 明 是 高 度 可 靠 的 ， 即 可 专注 于 自动 激活 或 执行 这 些 程序 ， 然 后 弹 
性 整合 到 云 0SS。 

© KEV: 虚拟 机 迁移 (第 17.7.6 节 )。 当 应 用 程序 支持 VM 迁移 ， 云 服务 
提供 商 可 以 自主 移动 应 用 程序 的 虚拟 机 实例 来 执行 维护 操作 〈 例 如， 架构 
组 件 的 发 布 管理 ) ， 或 整合 工作 负载 管理 电源 消耗 (Aan, Bre HEH K 
较 低 的 服务 器 ) ， 而 不 会 对 应 用 程序 终端 用 户 产 生 不 可 接受 的 服务 影响 。 
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这 些 步骤 可 以 被 重新 排序 和 定制 ， 以 满足 具体 应 用 、 云 消费 者 、 云 服务 提供 商 
和 终端 用 户 的 需要 。 例 如 ， 某 些 应 用 服务 提供 商 将 要 在 自动 发 布 管理 《名义 上 阶 
Rll) 之 前 自动 部 署 应 用 程序 容量 (名 义 上 阶段 NV ) 。 


17.7.1 阶段 0: 传统 应 用 


传统 的 应 用 程序 一 直 致 力 于 提供 可 接受 的 用 户 服务 ， 这 也 是 应 用 程序 不 断 发 展 
的 坚实 基础 。 理 想 情 况 下 ， 应 用 程序 用 户 面临 的 KQI 是 已 知 的 ， 作 为 云 部 署 应 用 
程序 的 目标 ， 明 确 的 量化 记录 为 服务 质量 要 求 。 如 第 13 章 “ 应 用 程序 服务 质量 需 
求 ” 所 述 。 请 注意 ， 许 多 应 用 程序 用 户 面临 的 KQI 值 可 能 超越 用 户 的 期 望 ， 所 以 
云 部 署 通 近 而 不 是 等 于 那些 目标 是 可 接受 的 。 


17.7.2 阶段 1: 虚拟 化 架构 上 的 高 服务 质量 


不 断 发 展 的 传统 应 用 程序 部 署 到 云 的 第 一 阶段 是 通过 管理 程序 运行 在 虚拟 机 实 
例 上 的 ; 这 个 阶段 提高 应 用 程序 的 硬件 独立 性 。 部 署 虚拟 化 架构 能 一 定 程 度 上 使 服 
务 器 整合 或 应 用 共存 。 虚 拟 化 使 资源 共享 也 存在 一 定 的 风险 ， 这 在 第 4 章 “ 虚 拟 
化 架构 的 缺陷 “中 进行 了 介绍 。 需 要 注意 的 是 ， 因 为 有 管理 程序 之 间 的 差异 ， 供 
应 商 一 般 挑选 特定 的 虚拟 机 管理 程序 进行 集中 支持 。 

架构 师 首先 映射 应 用 程序 的 软件 组 件 到 虚拟 机 实例 。 在 适当 的 时 候 ， 随 着 目标 
平台 作为 一 种 服务 〈 如 负载 均衡 器 和 数据 库 服务 器 ) 提供 技术 组 件 ， 应 用 程序 架 
构 师 将 考虑 更 换 本 地 应 用 组 件 。 架 构 师 和 开发 人 员 应 该 预先 考虑 不 完善 的 基础 架构 
和 技术 组 件 ， 并 完成 laaS 缺陷 影响 分 析 (第 15. 2 节 ) 和 PaaS 故障 影响 分 析 (第 
15. 3 节 ) 。 应 用 程序 应 该 对 虚拟 化 架构 的 故障 进行 监测 ， 使 应 用 服务 质量 问题 无 论 
是 在 测试 还 是 生产 部 署 过 程 中 都 能 得 到 的 有 效 解决 。 如 果 一 个 无 法 接受 的 性 能 传递 
到 某 个 单一 的 虚拟 机 实例 上 ， 那么 应 用 程序 架构 师 可 以 考虑 采用 以 下 一 个 或 者 多 个 
缓解 策略 : 

© 虚拟 机 级 拥塞 检测 与 控制 (第 14.4.2 45) ; 

o 终止 性 能 欠 佳 的 虚拟 机 实例 (第 14.4.4 节 )。 

当 支持 弹性 增长 ， 应 用 程序 可 以 考虑 额外 的 缓解 办 法 : 分 配 更 多 虚拟 资源 容量 
(第 14.4.3 节 )。 

架构 师 应 完成 反 关 联 性 分 析 (第 15.5 节 ) ， 以 方便 写 反 关联 性 规则 , 在 VM AR 
务 器 主机 中 明确 分 布 应 用 程序 的 虚拟 机 实例 ， 这 样 应 用 程序 实例 可 以 承受 单个 VM 
服务 器 故障 。 需 要 注意 的 是 ， 架 构 师 可 通过 手动 部 署 或 自动 灾难 恢复 机 制 减轻 VM 
主机 故障 。 应 执行 恢复 点 目标 分 析 (第 15.8 节 ) 和 恢复 时 间 目 标 分 析 (第 15.9 
节 ) ， 以 验证 架构 满足 其 业务 连续 性 和 故障 恢复 目标 ， 包 括 主要 的 云 架 构 故 障 
恢复 。 

阶段 | 中 已 经 说 明了 应 用 程序 安装 和 发 布 管理 措施 ， 程 序 容 量 的 增长 和 逆 增 长 
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措施 遵循 传统 (例如 离线 的 ) 过 程 。 
除了 功能 测试 ， 云 部 署 应 用 程序 的 测试 活动 应 包括 以 下 内 容 : 
© 服务 可 徘 性 和 延迟 测试 (第 16.4.1 节 )。 注 意 此 处 应 该 包括 模拟 的 虚拟 化 
架构 故障 测试 ; 
© 构架 缺陷 测试 (第 16. 4.2 节 ); 
© 健壮 性 测试 (第 16.4.3 49); 
© 持久 性 /稳定 性 测试 (第 16.4.47); 
© 升级 测试 (B 16.4.67); 
© 灾难 恢复 测试 (第 16. 4.7 节 ); 
© 极端 共存 测试 (第 16. 4.8 节 )。 


17.7.3 BRI: 手动 应 用 弹性 


现 有 的 应 用 程序 会 支持 一 些 功 能 扩充 , 但 通常 执行 时 应 用 程序 是 离线 状态 
(例如 在 维护 期 间 )， 并 且 可 能 需要 一 些 变 化 (例如 重新 安装 并 进行 不 同 的 设置 ， 
如 一 个 大 的 数据 库 应 用 程序 ) 。 应 用 程序 团队 将 决定 哪些 应 用 增长 和 缩减 支持 在 线 
操作 (例如 增加 用 户 服务 ) 和 哪些 方面 应 该 继续 脱 机 操作 (例如 不 断 增长 的 数据 
库容 量 ) 。 注 意 ， 应 考虑 应 用 程序 本 身 和 其 组 件 的 许可 策略 ， 以 确保 许可 证 管理 与 
应 用 程序 的 弹性 对 齐 。 

架构 师 决定 了 应 用 程序 的 在 线 增长 是 水 平 的 或 重 直 的 并 且 设 计 适 当 的 机 制 。 
架构 师 也 将 确定 增长 的 单位 (例如 个 人 VM 实例 或 VM 实例 组 ) 以 及 弹性 增长 的 极 
限 。 弹 性 分 析 (第 15.6 节 ) 用 来 确保 健壮 的 弹性 架构 。 相 应 的 应 用 程序 弹性 测试 
(第 16.4.5 节 ) 也 应 当 设 计 实施 。 


17.7.4 MRM: 自动 发 布 管理 


自动 发 布 管理 使 软件 补丁 、 更 新 、 升 级 和 改造 能 够 有 效 的 进行 ， 并 保证 尽 可 能 
少 的 进行 手动 安装 。 在 第 9 章 “ 发 布 管理 ”中 详细 讨论 了 相关 内 容 。 除 了 降低 云 
消费 者 的 OPEX， 还 可 以 通过 bug 修复 以 及 安全 性 和 稳定 性 补丁 提高 应 用 程序 的 服 
务 质量 。 这 样 就 减少 了 时 间 窗 口 ， 一 个 被 修复 的 应 用 容易 造成 风险 。 自 动 发 布 管理 
需要 不 断交 付 ， 但 这 么 做 是 有 价值 的 ， 其 至 需要 采用 定期 发 布 交付 模式 。 发 布 管理 
影响 效应 分 析 ( 见 第 15.7 节 ) 应 用 于 分 析 应 用 程序 的 发 布 管理 策略 ， 升 级 测试 
(参见 第 16.4.6 节 “ 升 级 测试 ) 用 以 验证 操作 的 正确 性 。 


17.7.5 阶段 IV: 自动 应 用 弹性 


第 8 章 “ 容 量 管理 “详细 阐述 应 用 程序 的 弹性 问题 。 应 用 程序 弹性 自动 化 要 
求 应 用 程序 架构 师 做 到 如 下 几 个 方面 : 
。 确定 哪些 应 用 程序 的 性 能 指标 触发 目 动弹 性 增长 和 逆 增 长 ; 
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。 制定 评估 能 够 恰当 引发 弹性 操作 的 性 能 指标 的 策略 ; 
。 定义 强大 的 自动 弹性 程序 以 保证 可 接受 的 服务 操作 和 服务 质量 ， 尽 管 有 
故障 和 误 操作 是 不 可 避免 的 。 
架构 师 应 该 小 心 确保 弹性 操作 连接 了 正确 的 自动 触发 器 ， 从 而 减 小 观察 到 的 性 
能 下 降 或 吞吐 量 瓶颈 引发 的 错误 资源 增长 所 带 来 的 风险 ， 导 致 应 用 程序 因为 资源 容 
量 和 性 能 /吞吐 量 问题 终止 。 应 用 程序 开发 人 员 将 实施 这 些 机 制 并 用 适当 的 弹性 业 
务 支持 系统 进行 整合 。 反 复 进行 弹性 分 析 (第 15.6 节 ) 以 确保 架构 和 用 于 自动 弹 
ee 
需要 考虑 适当 的 应 用 程序 弹性 测试 (第 16.4.5 节 )， 包 括 验证 自动 弹性 机 
E A a EE E 
自动 弹性 不 会 给 软件 升级 带 来 负面 影响 。 持 久 性 /稳定 性 测试 (48 16.4.4 4), 4 


tg 


” 丘 上 自动 弹性 增长 (RAK) 应 当 作 为 日 党 稳定 性 测试 标准 的 一 部 分 。 


17.7.6 阶段 V: 虚拟 机 迁移 


云 服务 提供 商 从 一 个 特定 的 VM 服务 器 主机 删除 应 用 程序 的 虚拟 机 实例 是 不 
可 避免 的 ， 当 然 这 也 是 必要 的 和 便捷 的 。 如 要 使 服务 提供 商 进行 维护 操作 ， 例 如 
VM 服务 融 的 发 布 管理 ， 就 必须 进行 配置 更 改 或 维修 IP 架构 。 当 应 用 程序 可 以 脱 
机 或 处 于 在 单机 操作 状态 较 长 时 间 时 ， 解决 问题 的 传统 方法 是 将 维护 工作 安排 在 
统一 的 维护 时 段 (例如 ， 午 夜 至 姿 晨 4 点 之 间 ) 。 首 选 的 解决 方案 是 让 应 用 程序 
文 持 VM 实例 到 其 他 服务 器 的 迁移 ， 这 样 云 服务 提供 商 就 可 以 高 效 地 执行 维护 操 
作 ， 从 而 确保 应 用 程序 的 最 终 用 户 受 到 的 影响 最 小 ， 且 实现 运营 成 本 和 去 用 户 风 
险 最 小 化 。 虚 拟 机 管理 程序 暂停 一 台 主 机 上 VM 实例 虚拟 机 的 内 存 、 存 储 和 网 络 
连接 传输 到 另 一 台 主 机 ， 然 后 激活 虚拟 机 上 的 另 一 台 主 机 上 ， 以 产生 一 个 “ 激 
TRAY” VM 和 了 迁移。 虚拟 机 管理 程序 、 云 服务 提供 商 架 构 和 经 营 策略 以 及 其 他 因素 
将 决定 已 配置 VM 容量 交付 故障 的 时 间 (参见 4.3 节 ) 。 如 果 时 间 太 长 ， 应 用 程 
序 架构 师 则 应 该 完善 迁移 机 制 ， 使 虚拟 机 实例 在 用 户 服务 影响 最 小 化 下 实现 
迁移 。 


17.8 结束 语 


与 传统 的 应 用 程序 部 署 相 比 ， 云 计算 提高 企业 服务 灵活 性 并 减少 资本 支出 
(CAPEX) 和 运营 支出 ， 同 时 为 终端 用 户 提供 可 接受 的 服务 质量 。 然 而 ， 云 计算 引 
入 了 与 虚拟 化 架构 相关 的 风险 ， 复 杂 的 生态 系统 以 及 新 的 职责 问题 ， 这 都 会 影响 终 
端 用 户 应 用 的 服务 质量 。 本 书 系统 的 界定 和 分 析 了 这 些 风 险 ， 并 提出 了 具体 建议 ， 
使 云 提供 的 服务 质量 至 少 与 本 地 应 用 一 样 好 ， 在 某 些 情况 下 应 当 更 好 。 
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